COLSEC语料库的设计原则与标注方法  被引量:26

Design principles and annotation methods of the COLSEC corpus

在线阅读下载全文

作  者:卫乃兴[1] 李文中[2] 濮建忠[3] 

机构地区:[1]上海交通大学语言文字工程研究所,上海200030 [2]河南师范大学外语学院,河南新乡市453002 [3]解放军外国语学院研究生处,河南洛阳市471003

出  处:《当代语言学》2007年第3期235-246,共12页Contemporary Linguistics

基  金:国家社会科学基金项目(01BYY007)"大学英语学习者口语语料库"的建设方法

摘  要:本文报告COLSEC语料库的设计原则与标注方法。文章描述该类语料库设计应考虑的任务场景、话语类型、话题、学习者背景等语域因素,继而讨论语料库转写与标注应遵循的"真实""准确"和"完整"原则,以及相应的头文件信息标注、话语信息标注、语音错误赋码等关键问题。我们还讨论了语料库后期加工中的赋码器选择、词类赋码格式以及转换为在线互联网资源所涉及的格式问题。文章最后阐述了基于口语语料库可进行的有关应用研究。This article describes the design principles of the COLSEC corpus and the methods adopted in transcribing and annotating its data.It spells out such important register factors as task setting,discourse genre,topic variety and learner background information,in sampling data for the learner spoken English corpus.It then goes on to discuss the related issues and their solutions as regards head information mark-up,discourse information tagging and pronunciation error tagging,which ought to,in general,abide by the overall principles of truthfulness,accuracy and completeness.The paper also deals with the questions of POS tagger selection,word class tag assignment format and its adaptation for on-line search on the Internet.

关 键 词:学习者口语语料库设计 转写原则 话语信息标注 语音错误赋码 词类码格式 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象