🐂🐎标注员规范手册

由“好久没吃火锅”,“窝窝头”赞助

0
规则总数
0
分类数量
2026-5-27
最后更新
有问题找C4A1组长反馈
······
中 文 类
1 带“第”的序数统一用汉字 第三行、第一章、第二节 只要有“第”,后续序数必为汉字
2 扑克牌语音按读音标注 勾、圈、K J→勾、Q→圈、K→K
3 符号读音转写为汉字 斜杠、点、星号 不保留/、*、.等原符号
4 “一”的汉字与数字 “一”带量词单位时是汉字;“一”表示数字、时间的时候是数字 “一”+ 只,个,颗,堆,站,类,分(钱),毛,刻等单位时使用汉字;“1”+ 时,分,秒 (表示时间用数字,天和年是汉字)或 表示数字:1.5、2.5,时使用数字
5 “两”和“2” 除“第两XX”“两次”和“两个”“以外其余依旧转写数字“2”;当和“一“表示并列的时候保持一致,写作汉字“两”例如:一道题,两道题;一天两天 排除第两、两次、两个,其余情况一律写成数字2;与一并列配对时,统一用汉字“两”
6 模糊概数 概数与模糊区间,组合模式为数字+ 概述词(如“多”、“来”、“左右等)例如:等两天、过两天、三四百、七八十万块、十五六斤、千八百块、十几个、两百几、五六岁、四五点钟、初七八、三五天、 两千二百多,两百左右,六点多,三十来次等,统一写为汉字;若组合模式为概述词+数字(如“大概”、“不到"等)例如:大概50块钱,不到30个人等,统一写为数字 根据词语前后语序区分书写格式
7 同时出现确切数字”与“概数” 当同一句中同时出现“确切数字”与“概数”时,按各自规则分别处理,允许前后格式不一致例如:那么我们下午现在是6点10分就放学了。那么每天下午呢,因为我们等这个社团鼓号队的孩子,所以说我们稍微就晚几分钟。因为鼓号队呢,他没有放,我们就没办法放孩子。那么我们六点多钟放孩子出去,我们老师回家是7点10分下班。那7点10分下班,有些孩子他没有回去。 确切数字”与“概数”同时出现,前后格式可以不一致
8 脏话正常标注 他妈的、傻逼、卧槽 普通脏话不做特殊无效处理,正常标注;但遇到脏话过于粗鄙或带有器官请做跳过处理
9 长度/时间单位用中文 厘米、米、分钟 禁止cm、m、min
10 繁体字转简体 圓→圆 无繁体,除财务类(壹、贰、叁、肆、伍、陆、柒、捌、玖、拾)
11 精确数字用字符,概数用汉字 10%、百分之二三十 不必前后统一
12 十五五规划 标注过程中听到“一五五” 转 “十五五” 在2030年之前都是十五五
13 进制、季度、古诗、专业词语、农历历法/节日、人名、俗语、制度等级、统一用汉字 示例:二进制、八进制、十进制、十六进制;一季度、二季度、三季度、四季度;两个黄鹂鸣翠柳,一行白鹭上青天;五险一金、双一流大学、 二维码、双十一;八月十五、大年初一、三八妇女节、五一劳动节;洪七公、张三丰、燕十三;一问三不知、八九不离十;一年级、二年级、初一、高二、四六级; 禁止阿拉伯数字
14 口吃表达 遇到口吃的情况,字间不需要加标点。例如:我今今今今今打算算算算去钓鱼; 口吃重复仅标注汉字,禁止额外添加顿号、逗号等分隔标点
15 数字口吃表达 影响数字描述的口吃:全部写为汉字例如:语音表达“百分之一百一百一百零五”→标注“百分之一百一百一百零五”;不影响描述的数字串:保留为阿拉伯数字,中间用逗号隔开例如:语音表达“七七百五十七”→标注“7,757” 影响数字描述的口吃写为汉字;不影响描述的数字串,保留为阿拉伯数字,中间用逗号隔开
16 语气与程度副词 含语气、夸张程度的数字表达,按原文原样保留。例如:精神上百分之百支持、百分之一万没问题 修辞类数字无需修改格式
17 序数词 若音频中数字不多,则转写为汉字;若音频中出现大量序数词的,确保“一+量词单位(写汉字)”;其余的按照阅读习惯书写 分场景区使用格式,“一+量词”固定使用汉字
18 "的"用法区分 的(白勺的):在名词前面公式:修饰语 + 的 + 名词例如:美丽的风景、我的书本 动词形容词之后要用得
19 "地"用法区分 地(土也地):在动词前面公式:修饰语 + 地 + 动词例如:飞快地跑、认真地学习 动词前用地
20 "得"用法区分 得(双人得):动词、形容词后面用,用来补充说明公式:动词/形容词 + 得 + 补充内容例如:跑得快、红得发紫 动词形容词之后要用得
21 "他"用法区分 他(单人旁)指代:男性/泛指人/混合的群体例如:他是老师、他们是我的骄傲(男女都有)、孙悟空本领高强,他会七十二变 男用他,只要赋予事物人格、情感、专属性别形象,就按人设性别用他/她
22 "她"用法区分 她(女字旁)指代:女性/被拟人化的事物 女用她,只要赋予事物人格、情感、专属性别形象,就按人设性别用他/她
23 "它"用法区分 它(宝盖头)指代:人以外的动物、物品、事物例如:它是一只普通的小狗、它是手机、这家公司,它的总部在上海 单纯客观指代无生命、无人格的事物、动物、概念时,一律用它。
英 文 类
1 英文字母大小写,必须正确按照书写标准标注 编程/数学语境中的英文大小写应遵循对应领域的书面规范。函数名按语言规范(函数大写如SUM、C语言、MAX、NBA、AI;函数小写如sqrt);编程关键字按规范小写(int、for、int、if、else、case等);单个字母变量或多字母缩写(如SY、AJ) 在无法从语音判断大小写时,数学语境默认大写、编程语境按该语言惯例。 函数/专有名词大写;关键字小写;普通英文语境首字母可大写
2 英文专有名词/代码原样统一 ChatGPT、NBA、main、printf 以专业正确书写方式一致,不随意改动
3 编程关键字写法 if、if else、switch、for 遵循官方标准写法
4 中文与英文中间的空格 这个很OK、yes很棒(中文与英文间不能有空格);How are you;Thank you(词组间可以加空格);hello, good, yes, sorry(单词与单词中间出现逗号需使用半角,且后面加上空格) 英文词组间加空格;半角符号后加空格
5 专有名词大写,普通英文小写、专业词汇用正确书写方式 WPS、GDP、AI;office、Excel;pH试纸 专有名词可在AI助手询问/不确定英文先查AI再问组长保证拼写正确;普通单词小写,中文语境中出现不连续英文可以首字母大写
6 英文单词内禁止空格 WPS(非W P S)、OK(okay缩写)、VIP(very important person缩写) 专有名词/词组缩写连续无空格
7 英文简写大写 PPT、PDF 固定大写
8 英文单词拼写用字母小写加空格 p i n g、s o r r y、t h a n k s 小写字母加空格
9 app大小写 听“爱普”和听“APP”都写作APP 统一写作APP
10 特殊专有名词驼峰式大小写 SaaS、PoC、ChatGPT、DepSeek 驼峰式大小写
11 英文开头 缩写大写(GDP);单词首字母大写(Hello) 按类型处理
12 英文与数字间的空格 list 1、return 0;A1 代码中数字与英文间需要空格隔开;数学中数字与英文不需空格
13 英文与英文中间出现”点“ turtle点foreord 英文与英文中间的”点“用汉字
14 七个音阶表示方法 do re mi fa sol la si 音阶用英文表示
15 函数名大小写规范 Excel/SQL/Power BI类:全部大写,如SUM、SELECT等;C/C++/Python等编程语言:全小写或驼峰式,按官方文档为准;录音未指明语言:通用数学函数(max/min/sum等)默认全小写; 函数类型(大写)例如:SUM 、MAX、MIN、COUNT、VLOOKUP、SELECT;编程语言(小写/驼峰)例如:sqrt、printf、max、len、 parseInt、toString;通用无指定语言数学函数(全小写)例如:max 、 min 、 sum 、 avg 、 sqrt
16 编程关键字 所有编程关键字一律小写,如int、for、def、return 编程关键字一律小写
17 专有名词/产品名/缩略语 全大写固定:API、URL、SQL、HTTP、JSON等;单字母语言:C语言、R语言、Q语言,C++、C# 等类似编程语言,单字母需保留大写;混合大小写原样保留:iPhone、iOS、GitHub、PyTorch等,禁止自行改成全大写或全小写; 全大写固定例如:API、URL、SQL、HTTP、HTTPS、JSON、XML、VPN、CPU单字母编程语言(保留大写)例如:C语言、R语言、Q语言、C++、C#混合大小写原样保留例如:iPhone、iOS、iPad、GitHub、PyTorch、JavaScript、Docker、WordPress
18 单字母变量与多字母缩写书写规则 首要原则:严格遵从发音,口语念小写x则写x,念大写X书写为X,以实际读音为准;兜底判定:仅当录音含糊、无法判断时才按以下兜底:数学语境中常量/集合默认大写(N、R、X),普通变量默认小写(x、 y、i);编程语境一律按该语言惯例(Python变量小写,Java类名大驼峰等)。 优先以口语实际读音为准,读小写x写x,读大写X写X;读音模糊无法区分时,数学场景:数集、常量用大写(N、R、X),普通变量用小写(x、y、i);编程场景遵循对应语言既定大小写书写规范。
19 一致性硬约束 同一段录音里,同一个术语只能有一种大小写。出现MAX和min这种同句混用,无论哪种写法对,都判错。 同一段录音内,同一个类型的术语只能用一种大小写,大小写混用直接判错
20 英文与英文中间的逗号 中文语境下两个英文单词之间用全角逗号例如:Hello,everybody大家好(中文语境下英文与英文之间用全角逗号);英文与英文之间用半角逗号加空格例如:Hello, everybody。(两个英文单词之间用半角逗号加空格) 中文语境下两个英文单词之间用全角逗号,英文与英文之间用半角逗号加空格
21 “叉”的口语表述写法 “叉”在特殊语境下更改位“X”,更符合语境例如:“这台机器的价格是叉叉元左右”→“这台机器的偷格是XX元左右”;“这件衣服的尺寸是叉L”→“这件衣服的尺寸是XL” 在此类似情境下,将“叉”写为“X”更符合语境
数 字 类
1 折扣、年份、年代 85折,95折;23年,25年;00后,95后,80年代 折扣用数字;年份用数字;年代用数字
2 大数分级标注 112100、12万、3亿 万以内含百、十、千位数字全数写完整;万内末尾四个零可复合成汉字万;亿字必须保留汉字单位。
3 精确数字需转写出来 2500万、2000万 禁止“两千五百万”
4 AI转写的数字千分位逗号删除 4000万不可写作4,000万 禁止书写千分位逗号
5 百分数+概述词/年份+概数词/时间+概数词 百分之九十五以上、百分之七十五左右;26年左右、2015年前后;1.5个小时左右、3个小时不到(一个小时,两个小时是例外) 有量词单位的用数字
6 百分比转符号 乘以52%~53% 禁止汉字百分比
7 百分号,千分号 1%(百分之一)、1‰(千分之一) 使用符号
8 比例,比分 1:1(一比一)、1:2:3(一比二比三) 数字间比例/比分中的“比”使用符号“:”半角冒号表示
9 数字间符号 5,4,3,2,1和1,2,3 数字间使用全角逗号隔开
10 数字范围规范(连接词) 当连接词两端为数字时, 将汉字数字改为阿拉伯数字,并用半角波浪号替代连接词例如:三到六个 → 3~6个;五到十米 → 5~10米;当连接词之前有量词/单位时,把汉字数字改为阿拉伯数字,保留连接词,不替换为波浪号例如:三个到六个 → 3个到6个;五厘米到十米 → 5厘米到10米 连接词两端为数字,汉字数字改为阿拉伯数字;连接词之前有量词/单位,把汉字数字改为阿拉伯数字,且留连接词
其 他 类
1 编程语言、符号原样保留 C++,C--,++C,--C 不转写为“加加”等文字,且除“C++”外其余++中的字母都为小写(例如:i++)
2 标点符号规范(半角/全角) 数字序列用全角:10,9,8,7;中英衔接用全角:ChatGPT,好用;英文序列用半角:A,B,C,D,Y,F,G 英文间半角;英文接中文/数字序列用全角逗号。中文语境下,数字和字母后面不需要用半角逗号;两个英文单词之间用半角逗号;如果是单个单词,后面是中文,用全角逗号。
3 切片结尾处理 结尾语音未说完加逗号:“接下来我们,” 话未说完加逗号
4 多人对话、插话 清晰听到的对话必须标注,听不清的内容可不标注;无法标注内容时长≥2.5秒,判定为噪音过长,整体无效;多人对话时,上一人说完用句号收尾,再衔接下一人话语。 听清对话必标,听不清可不标;无法标注时长≥2.5秒判无效;对话句末用句号分隔接续。
6 开头、中间、结尾 只要语音条中出现2.5秒以上静音或噪音选择无效,无效理由选择:句首或句尾噪音和静音超过1秒 超过2.5秒以上静音或噪音选择无效
7 横线连接符号区分书写规则 编程代码、产品型号、设备规格、器件编号场景,使用符号“-”书写,例如:GY-1201、HC-SR04、USB-C、STM32-F103;除型号、编程外,数字与数字间、汉字中所说的“杠”全部书写成汉字“杠”,例如:1杠2、左杠右、上杠下 除编程、型号外,其他的都用汉字“杠”书写
8 多人同时说话、含糊不清 音频中若出现多人同时说话、语音含糊不清导致无法精准判别,可按无效内容处置或直接跳过。 难以分辨可跳过