基于向量空间模型中义项词语的无导词义消歧  被引量:37

An Unsuptervised Approach to Word Sense Disambiguation Based on Sense-Words in Vector Space Model

在线阅读下载全文

作  者:鲁松[1] 白硕[1] 黄雄[1] 

机构地区:[1]中国科学院计算技术研究所,北京100080

出  处:《软件学报》2002年第6期1082-1089,共8页Journal of Software

基  金:国家自然科学基金资助项目(69773008);国家863高科技发展计划资助项目(863-306-2D02-01-3);国家重点基础研究发展规划973资助项目(G1998030510)~~

摘  要:有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果.WSD (word sense disambiguation) based on supervised machine learning made a great progress, but it is hard to deal with large-scale WSD because of its 慴ig?labor cost. An unsupervised WSD method is provided in this paper to solve this problem. Only under the knowledge database of sense-words, this method formulates the sense-words and polysemous words in vector space, and based on k-NN (k=1) it calculates the similarity between them to disambiguate polysemous words. The average accuracy is 83.13% for 10 polysemous words in open test by this method.

关 键 词:向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象