语料库中熟语的标记问题  被引量:7

Tagging of the Idiom in the Corpus

在线阅读下载全文

作  者:安娜[1] 刘海涛[1] 侯敏[1] 

机构地区:[1]北京广播学院应用语言学系,北京100024

出  处:《中文信息学报》2004年第1期20-25,41,共7页Journal of Chinese Information Processing

基  金:国家广电总局社科项目资助 (bw0 2 2 0 );国家语委科研规划项目资助 (YB10 5 - 6 1A)

摘  要:熟语是自然语言中普遍存在的语言现象。本文分析了国内现有语料库对熟语的标注方式 ,发现这种方式对语料库的进一步加工是有问题的。为了在语料库标注阶段把熟语问题处理好 ,本文从信息处理的角度将熟语中的成语、惯用语、歇后语、习用语、专门语以及缩略语归为固定语的范畴 ,进而提出根据固定语的语法功能给定词性标记 ,再根据它们的词汇特征给定词汇范畴标记的双层标记法 ,这样在一定程度上解决了熟语的语料库标注问题。Idiomaticity is a common phenomenon in natural languages. This paper analyses some known means of tagging the idiom in Chinese corpus. These tagging methods are problematic for the further syntactic tagging and parsing of corpus. To find a suitable solution for application in natural language processing, the authors introduce a new concept 'fixed expression', which consist of idioms, customary usages, two part allegorical sayings, terms and abbreviations. These fixed expressions have the same grammatical function as common words, thus we can tag them according to their function in text and give suitable vocabulary category of fixed expressions. This is called two level tagging method. The proposed solution is useful to build a parsed corpus as knowledge source of NLP.

关 键 词:人工智能 自然语言处理 熟语 固定语 标注 语料库 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象