基于词典的语料库词义标注研究  被引量:5

Dictionary Informed Corpus Word Sense Annotation

在线阅读下载全文

作  者:肖航[1] 杨丽姣[2] 

机构地区:[1]教育部语言文字应用研究所,北京100010 [2]北京师范大学中文信息处理研究所,北京100875

出  处:《语言文字应用》2010年第2期135-141,共7页Applied Linguistics

摘  要:本文从主要难点、可实现性等方面对基于词典的语料库词义标注进行了分析。词义标注的主要难点可归纳为两个,一是词典词义区分不清晰带来的标注不一致性,二是词典提供的词义不能覆盖语料库中词语的所有语言使用情况。这些困难导致语料库词义标注存在可实现与否的争论。本文通过华语文教材语料库词义标注实践指出,仅从词典词义划分来看,词义的准确区分具有操作上的明显困难;但若考虑词义在语料库中具体使用与分布,高准确率的词义标注是可以实现的。This study is mainly concerned with the difficulties and solutions in annotating word senses in corpus data.The paper introduces the major components and basic methods of corpus sense annotation.The paper also analyzes the main obstacles in sense annotation.The first difficulty is that ambiguous dictionary sense distinctions lead to serious annotation disagreement;the second one is that senses in dictionary cannot match all word usages in corpus data.The paper further discusses the controversy in the realizability of high accuracy of sense annotation on theoretical and practical grounds.

关 键 词:词义标注 词义消歧 词义区分 语料库标注 

分 类 号:H03[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象