| 中 文 类 |
|
|
|
| 1 |
带“第”的序数统一用汉字 |
第三行、第一章、第二节 |
只要有“第”,后续序数必为汉字 |
| 2 |
扑克牌语音按读音标注 |
勾、圈、K |
J→勾、Q→圈、K→K |
| 3 |
符号读音转写为汉字 |
斜杠、点、星号 |
不保留/、*、.等原符号 |
| 4 |
“一”的汉字与数字 |
“一”带量词单位时是汉字;“一”表示数字、时间的时候是数字 |
“一”+ 只,个,颗,堆,站,类,分(钱),毛,刻等单位时使用汉字;“1”+ 时,分,秒 (表示时间用数字,天和年是汉字)或 表示数字:1.5、2.5,时使用数字 |
| 5 |
“两”和“2” |
除“第两XX”“两次”和“两个”“以外其余依旧转写数字“2”;当和“一“表示并列的时候保持一致,写作汉字“两”例如:一道题,两道题;一天两天 |
排除第两、两次、两个,其余情况一律写成数字2;与一并列配对时,统一用汉字“两” |
| 6 |
模糊概数 |
概数与模糊区间,组合模式为数字+ 概述词(如“多”、“来”、“左右等)例如:等两天、过两天、三四百、七八十万块、十五六斤、千八百块、十几个、两百几、五六岁、四五点钟、初七八、三五天、 两千二百多,两百左右,六点多,三十来次等,统一写为汉字;若组合模式为概述词+数字(如“大概”、“不到"等)例如:大概50块钱,不到30个人等,统一写为数字 |
根据词语前后语序区分书写格式 |
| 7 |
同时出现确切数字”与“概数” |
当同一句中同时出现“确切数字”与“概数”时,按各自规则分别处理,允许前后格式不一致例如:那么我们下午现在是6点10分就放学了。那么每天下午呢,因为我们等这个社团鼓号队的孩子,所以说我们稍微就晚几分钟。因为鼓号队呢,他没有放,我们就没办法放孩子。那么我们六点多钟放孩子出去,我们老师回家是7点10分下班。那7点10分下班,有些孩子他没有回去。 |
确切数字”与“概数”同时出现,前后格式可以不一致 |
| 8 |
脏话正常标注 |
他妈的、傻逼、卧槽 |
普通脏话不做特殊无效处理,正常标注;但遇到脏话过于粗鄙或带有器官请做跳过处理 |
| 9 |
长度/时间单位用中文 |
厘米、米、分钟 |
禁止cm、m、min |
| 10 |
繁体字转简体 |
圓→圆 |
无繁体,除财务类(壹、贰、叁、肆、伍、陆、柒、捌、玖、拾) |
| 11 |
精确数字用字符,概数用汉字 |
10%、百分之二三十 |
不必前后统一 |
| 12 |
十五五规划 |
标注过程中听到“一五五” 转 “十五五” |
在2030年之前都是十五五 |
| 13 |
进制、季度、古诗、专业词语、农历历法/节日、人名、俗语、制度等级、统一用汉字 |
示例:二进制、八进制、十进制、十六进制;一季度、二季度、三季度、四季度;两个黄鹂鸣翠柳,一行白鹭上青天;五险一金、双一流大学、 二维码、双十一;八月十五、大年初一、三八妇女节、五一劳动节;洪七公、张三丰、燕十三;一问三不知、八九不离十;一年级、二年级、初一、高二、四六级; |
禁止阿拉伯数字 |
| 14 |
口吃表达 |
遇到口吃的情况,字间不需要加标点。例如:我今今今今今打算算算算去钓鱼; |
口吃重复仅标注汉字,禁止额外添加顿号、逗号等分隔标点 |
| 15 |
数字口吃表达 |
影响数字描述的口吃:全部写为汉字例如:语音表达“百分之一百一百一百零五”→标注“百分之一百一百一百零五”;不影响描述的数字串:保留为阿拉伯数字,中间用逗号隔开例如:语音表达“七七百五十七”→标注“7,757” |
影响数字描述的口吃写为汉字;不影响描述的数字串,保留为阿拉伯数字,中间用逗号隔开 |
| 16 |
语气与程度副词 |
含语气、夸张程度的数字表达,按原文原样保留。例如:精神上百分之百支持、百分之一万没问题 |
修辞类数字无需修改格式 |
| 17 |
序数词 |
若音频中数字不多,则转写为汉字;若音频中出现大量序数词的,确保“一+量词单位(写汉字)”;其余的按照阅读习惯书写 |
分场景区使用格式,“一+量词”固定使用汉字 |
| 18 |
"的"用法区分 |
的(白勺的):在名词前面公式:修饰语 + 的 + 名词例如:美丽的风景、我的书本 |
动词形容词之后要用得 |
| 19 |
"地"用法区分 |
地(土也地):在动词前面公式:修饰语 + 地 + 动词例如:飞快地跑、认真地学习 |
动词前用地 |
| 20 |
"得"用法区分 |
得(双人得):动词、形容词后面用,用来补充说明公式:动词/形容词 + 得 + 补充内容例如:跑得快、红得发紫 |
动词形容词之后要用得 |
| 21 |
"他"用法区分 |
他(单人旁)指代:男性/泛指人/混合的群体例如:他是老师、他们是我的骄傲(男女都有)、孙悟空本领高强,他会七十二变 |
男用他,只要赋予事物人格、情感、专属性别形象,就按人设性别用他/她 |
| 22 |
"她"用法区分 |
她(女字旁)指代:女性/被拟人化的事物 |
女用她,只要赋予事物人格、情感、专属性别形象,就按人设性别用他/她 |
| 23 |
"它"用法区分 |
它(宝盖头)指代:人以外的动物、物品、事物例如:它是一只普通的小狗、它是手机、这家公司,它的总部在上海 |
单纯客观指代无生命、无人格的事物、动物、概念时,一律用它。 |
| 英 文 类 |
|
|
|
| 1 |
英文字母大小写,必须正确按照书写标准标注 |
编程/数学语境中的英文大小写应遵循对应领域的书面规范。函数名按语言规范(函数大写如SUM、C语言、MAX、NBA、AI;函数小写如sqrt);编程关键字按规范小写(int、for、int、if、else、case等);单个字母变量或多字母缩写(如SY、AJ) 在无法从语音判断大小写时,数学语境默认大写、编程语境按该语言惯例。 |
函数/专有名词大写;关键字小写;普通英文语境首字母可大写 |
| 2 |
英文专有名词/代码原样统一 |
ChatGPT、NBA、main、printf |
以专业正确书写方式一致,不随意改动 |
| 3 |
编程关键字写法 |
if、if else、switch、for |
遵循官方标准写法 |
| 4 |
中文与英文中间的空格 |
这个很OK、yes很棒(中文与英文间不能有空格);How are you;Thank you(词组间可以加空格);hello, good, yes, sorry(单词与单词中间出现逗号需使用半角,且后面加上空格) |
英文词组间加空格;半角符号后加空格 |
| 5 |
专有名词大写,普通英文小写、专业词汇用正确书写方式 |
WPS、GDP、AI;office、Excel;pH试纸 |
专有名词可在AI助手询问/不确定英文先查AI再问组长保证拼写正确;普通单词小写,中文语境中出现不连续英文可以首字母大写 |
| 6 |
英文单词内禁止空格 |
WPS(非W P S)、OK(okay缩写)、VIP(very important person缩写) |
专有名词/词组缩写连续无空格 |
| 7 |
英文简写大写 |
PPT、PDF |
固定大写 |
| 8 |
英文单词拼写用字母小写加空格 |
p i n g、s o r r y、t h a n k s |
小写字母加空格 |
| 9 |
app大小写 |
听“爱普”和听“APP”都写作APP |
统一写作APP |
| 10 |
特殊专有名词驼峰式大小写 |
SaaS、PoC、ChatGPT、DepSeek |
驼峰式大小写 |
| 11 |
英文开头 |
缩写大写(GDP);单词首字母大写(Hello) |
按类型处理 |
| 12 |
英文与数字间的空格 |
list 1、return 0;A1 |
代码中数字与英文间需要空格隔开;数学中数字与英文不需空格 |
| 13 |
英文与英文中间出现”点“ |
turtle点foreord |
英文与英文中间的”点“用汉字 |
| 14 |
七个音阶表示方法 |
do re mi fa sol la si |
音阶用英文表示 |
| 15 |
函数名大小写规范 |
Excel/SQL/Power BI类:全部大写,如SUM、SELECT等;C/C++/Python等编程语言:全小写或驼峰式,按官方文档为准;录音未指明语言:通用数学函数(max/min/sum等)默认全小写; |
函数类型(大写)例如:SUM 、MAX、MIN、COUNT、VLOOKUP、SELECT;编程语言(小写/驼峰)例如:sqrt、printf、max、len、 parseInt、toString;通用无指定语言数学函数(全小写)例如:max 、 min 、 sum 、 avg 、 sqrt |
| 16 |
编程关键字 |
所有编程关键字一律小写,如int、for、def、return |
编程关键字一律小写 |
| 17 |
专有名词/产品名/缩略语 |
全大写固定:API、URL、SQL、HTTP、JSON等;单字母语言:C语言、R语言、Q语言,C++、C# 等类似编程语言,单字母需保留大写;混合大小写原样保留:iPhone、iOS、GitHub、PyTorch等,禁止自行改成全大写或全小写; |
全大写固定例如:API、URL、SQL、HTTP、HTTPS、JSON、XML、VPN、CPU单字母编程语言(保留大写)例如:C语言、R语言、Q语言、C++、C#混合大小写原样保留例如:iPhone、iOS、iPad、GitHub、PyTorch、JavaScript、Docker、WordPress |
| 18 |
单字母变量与多字母缩写书写规则 |
首要原则:严格遵从发音,口语念小写x则写x,念大写X书写为X,以实际读音为准;兜底判定:仅当录音含糊、无法判断时才按以下兜底:数学语境中常量/集合默认大写(N、R、X),普通变量默认小写(x、 y、i);编程语境一律按该语言惯例(Python变量小写,Java类名大驼峰等)。 |
优先以口语实际读音为准,读小写x写x,读大写X写X;读音模糊无法区分时,数学场景:数集、常量用大写(N、R、X),普通变量用小写(x、y、i);编程场景遵循对应语言既定大小写书写规范。 |
| 19 |
一致性硬约束 |
同一段录音里,同一个术语只能有一种大小写。出现MAX和min这种同句混用,无论哪种写法对,都判错。 |
同一段录音内,同一个类型的术语只能用一种大小写,大小写混用直接判错 |
| 20 |
英文与英文中间的逗号 |
中文语境下两个英文单词之间用全角逗号例如:Hello,everybody大家好(中文语境下英文与英文之间用全角逗号);英文与英文之间用半角逗号加空格例如:Hello, everybody。(两个英文单词之间用半角逗号加空格) |
中文语境下两个英文单词之间用全角逗号,英文与英文之间用半角逗号加空格 |
| 21 |
“叉”的口语表述写法 |
“叉”在特殊语境下更改位“X”,更符合语境例如:“这台机器的价格是叉叉元左右”→“这台机器的偷格是XX元左右”;“这件衣服的尺寸是叉L”→“这件衣服的尺寸是XL” |
在此类似情境下,将“叉”写为“X”更符合语境 |
| 数 字 类 |
|
|
|
| 1 |
折扣、年份、年代 |
85折,95折;23年,25年;00后,95后,80年代 |
折扣用数字;年份用数字;年代用数字 |
| 2 |
大数分级标注 |
112100、12万、3亿 |
万以内含百、十、千位数字全数写完整;万内末尾四个零可复合成汉字万;亿字必须保留汉字单位。 |
| 3 |
精确数字需转写出来 |
2500万、2000万 |
禁止“两千五百万” |
| 4 |
AI转写的数字千分位逗号删除 |
4000万不可写作4,000万 |
禁止书写千分位逗号 |
| 5 |
百分数+概述词/年份+概数词/时间+概数词 |
百分之九十五以上、百分之七十五左右;26年左右、2015年前后;1.5个小时左右、3个小时不到(一个小时,两个小时是例外) |
有量词单位的用数字 |
| 6 |
百分比转符号 |
乘以52%~53% |
禁止汉字百分比 |
| 7 |
百分号,千分号 |
1%(百分之一)、1‰(千分之一) |
使用符号 |
| 8 |
比例,比分 |
1:1(一比一)、1:2:3(一比二比三) |
数字间比例/比分中的“比”使用符号“:”半角冒号表示 |
| 9 |
数字间符号 |
5,4,3,2,1和1,2,3 |
数字间使用全角逗号隔开 |
| 10 |
数字范围规范(连接词) |
当连接词两端为数字时, 将汉字数字改为阿拉伯数字,并用半角波浪号替代连接词例如:三到六个 → 3~6个;五到十米 → 5~10米;当连接词之前有量词/单位时,把汉字数字改为阿拉伯数字,保留连接词,不替换为波浪号例如:三个到六个 → 3个到6个;五厘米到十米 → 5厘米到10米 |
连接词两端为数字,汉字数字改为阿拉伯数字;连接词之前有量词/单位,把汉字数字改为阿拉伯数字,且留连接词 |
| 其 他 类 |
|
|
|
| 1 |
编程语言、符号原样保留 |
C++,C--,++C,--C |
不转写为“加加”等文字,且除“C++”外其余++中的字母都为小写(例如:i++) |
| 2 |
标点符号规范(半角/全角) |
数字序列用全角:10,9,8,7;中英衔接用全角:ChatGPT,好用;英文序列用半角:A,B,C,D,Y,F,G |
英文间半角;英文接中文/数字序列用全角逗号。中文语境下,数字和字母后面不需要用半角逗号;两个英文单词之间用半角逗号;如果是单个单词,后面是中文,用全角逗号。 |
| 3 |
切片结尾处理 |
结尾语音未说完加逗号:“接下来我们,” |
话未说完加逗号 |
| 4 |
多人对话、插话 |
清晰听到的对话必须标注,听不清的内容可不标注;无法标注内容时长≥2.5秒,判定为噪音过长,整体无效;多人对话时,上一人说完用句号收尾,再衔接下一人话语。 |
听清对话必标,听不清可不标;无法标注时长≥2.5秒判无效;对话句末用句号分隔接续。 |
| 6 |
开头、中间、结尾 |
只要语音条中出现2.5秒以上静音或噪音选择无效,无效理由选择:句首或句尾噪音和静音超过1秒 |
超过2.5秒以上静音或噪音选择无效 |
| 7 |
横线连接符号区分书写规则 |
编程代码、产品型号、设备规格、器件编号场景,使用符号“-”书写,例如:GY-1201、HC-SR04、USB-C、STM32-F103;除型号、编程外,数字与数字间、汉字中所说的“杠”全部书写成汉字“杠”,例如:1杠2、左杠右、上杠下 |
除编程、型号外,其他的都用汉字“杠”书写 |
| 8 |
多人同时说话、含糊不清 |
音频中若出现多人同时说话、语音含糊不清导致无法精准判别,可按无效内容处置或直接跳过。 |
难以分辨可跳过 |