语音数据标注规范_数据标注从哪里接单「建议收藏」

语音数据标注规范_数据标注从哪里接单「建议收藏」文章内容为语音数据标注规范,包括听取原始音频内容、切片校对、标注信息等。标注要求准确无误,包括说话人角色、性别、起止时间、口音、方言、噪音等,并标注者ID以区分不同标注者。

语音数据标注规范_数据标注从哪里接单「建议收藏」

一、    基本原则

  a)   听取原始音频文件中的内容,切片、校对原始转译文本,将错误文字改写正确,生成标注文本及相关标签数据;

  b)   听到什么就写什么,不加字,不少字;例如“wo xi huan yang guang de ren ha ha ha ha ha”,则标成“我喜欢阳光的人哈哈哈哈哈”, 而“wo xi huan yang guang ren”,则标成“我喜欢阳光人”;

  c)   保证逻辑性,语音内容有逻辑性,所以文本也有逻辑;例如“ni sa zi bu kai qiang”,如果听得懂四川话,可以写成“你啥子不开腔”,但如果写成“你啥子不开枪”那么明显错误,因为不可能在这里的语音中出现“开枪”的词汇注:无论因为语音机器切割或者读音不准造成句意有明显歧义或不符合逻辑,则可以考虑无效。

二、    常见规范

  a)   有效性标注

    i. 无效性分类:

  1. 听不清:语速过快、发音不清;例如“我喜欢阳光的⼈”,读音为“wo xi~an yang guang de ren”,这⾥的 xi 后⾯发了 an 的;
  2. 听不懂:方言或带有口音的普通话;例如“ni sa zi bu kai qiang”,这句是四川话“你啥⼦不开腔”,如听不懂则可以⽆效;
  3. 丢帧:因录音设备原因导致丢音;例如“我喜欢阳光的⼈”,读音为“wo x hu yang guang de ren”,这⾥的 x 和 hu 很可能是丢帧;
  4. 首尾切音:多发于句⾸或句尾,⼀般是因为语⾳在进⾏机器切割时误将⼀个完整的字⾳切掉了⼀半所造成。这种情况下,切⾳的句⾸或句尾⼀般没有静⾳段。例如“我喜欢阳光的⼈”,读音为“o xi huan yang guang de re”,前后⽆静⾳,那么这⾥很可能存在切⾳;
  5. 噪音:说话人或非说话人发出的偶然或稳定噪音;
  6. 其它无效语音:如静音、变声、截幅、空⽩停顿、杂⾳、机器⼈声⾳等⾮正常对话停顿部分;

    ii. 如果一句音频均为静音、噪音、方言、多人重叠说话等,标为无效;

   iii. 如果一句音频声音极小,几乎听不到,标为无效;

   iv. 如果一句音频只有一个字,或是同一个字重复出现,标为无效,例如“嗯”、“啊”、“好好好”、“拜拜”;

    v. 如果一句音频大于等于3个字听不清或听不懂,标为无效;

   vi. 如果一句音频中出现少量上述无效音频片段,在不影响语义的前提下,整句音频依然有效,标注文本中加入相应标签,如对“少量”不好界定,优先标为无效;

  b)   音频切片

    i. 根据说话人和语义切分,保证⼀段⾳频只包含一个说话人和⼀个语义⽚段,但同一个说话人的同一句话可以切分为连续的两段甚至多段音频,尽量切为10-15个字左右,时长不超过10秒,每句话结束需要使⽤符号,如句号、问号、感叹号;

    ii. 首尾各保留一定长度静音段,0.1-0.5秒,不允许切到人声;

    iii. 当⽂本过⻓时,切分片段不超过40个字,如果太⻓,逗号也可以作为结束符,但句尾不可以标注逗号;

  c)   文本标注

     i. 数字,统一用汉字标注(1/2/3/4/5/6/7/8/9对应一或者幺/二或者两/三/四/五/六/七/八/九),注意多音字,例如1标为一或者幺;2标为二或者两;区分数值读法和数量读法,例如如 298标为 ⼆百九⼗⼋或者⼆九⼋,4279.35元标注为四千两百七⼗九点三五元;

    ii. 英文单词,区分拼读和整读,例如APP表示音频是逐字母拼读A-P-P,使用大写字母,字母之间加空格;app则表示整读,使用小写字母,字母之间不加空格;单词与单词之间、单词与字母之间需加空格,单词与中文之间、字母与中文之间不加空格;

   iii. 标点符号,只采用“,”、“。”、“?”、“!”,即逗号、句号、问号和感叹号,参考原始转译文本,一律全角;

   iv. 语气词,除“诶”外,统一使用“啊”、“嗯”、“呃”、“唉”、“哦”、“呵”、“唔” 等带有口字旁语气词;

    v. 说话人发音不标准或误读,按所听到的发音来标注,即使出现语法错误,例如“我走了”误读成“我了走”,标为“我了走”,“四十”发音不准读成“事十”,则标为“事十”;

    vi. 系统音,例如“工号9527为您服务”,直接切片并丢弃;

d)   听不清、听不懂类标注

      i. [UNK]:听不懂或听不清,如语速过快、方言或带口音的普通话;

      ii. [OVE]:多人混合或重叠音;

三、    标签信息

a)   说话人角色,客服或用户;

b)   说话人性别,男或女;

c)   起止时间;

d)   是否有口音;

e)   是否有方言;

f)   是否有噪音;

g)   对每条录音,标注标注者的ID,使得可以区分不同的标注者。

今天的文章语音数据标注规范_数据标注从哪里接单「建议收藏」分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/66188.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注