大数据语音语料库的社会标注技术  被引量:8

Social annotation for large speech corpora

在线阅读下载全文

作  者:李宏言[1] 范利春[1] 高鹏[1] 徐波[1] 

机构地区:[1]中国科学院自动化研究所,北京100190

出  处:《清华大学学报(自然科学版)》2013年第6期908-912,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家"八六三"高技术项目(2011AA01A207)

摘  要:由于传统语料标注方法耗时耗力,已经难以适应大数据语料的处理,该文提出了大数据语音语料库的社会标注策略。引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记。提出基于"兴趣+收获+报酬"的标注模式,并建立标注质量的3层检验机制。通过工程实现和应用,验证了本文方法在标注效率、质量和成本等方面都具有明显优势。同时,该标注策略可以推广到其他语料的标注,特别是对主观性较强的翻译语料和评价型语料的标注。Traditional corpus annotation methods are difficult to apply to large datasets because they are time consuming and labor intensive.This article describes a more practical social annotation strategy for large speech corpora.The method starts with the six element model for speech annotation.The speech resource characteristics are included with extended tags.Then,an annotation mode is added to describe interest,achievement and money.A three-stage verification method is used to verify annotation quality.This annotation method has many advantages in terms of efficiency,quality and cost.The strategy can be generalized to other corpus annotation projects,especially for subjective translation corpus and evaluation corpus annotation.

关 键 词:语音识别 社会标注 大数据 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象