基于向量空间模型的有导词义消歧  被引量:37

SUPERVISED WORD SENSE DISAMBIGUATION BASED ON VECTOR SPACE MODEL

在线阅读下载全文

作  者:鲁松[1] 白硕[1] 黄雄[1] 张健[1] 

机构地区:[1]中国科学院计算技术研究所软件研究室,北京100080

出  处:《计算机研究与发展》2001年第6期662-667,共6页Journal of Computer Research and Development

基  金:国家"九七三"重点基础研究发展规化项目基金! (G19980 3 0 5 10 );国家自然科学基金! (69773 0 0 8);国家"八六三"高技术研究发

摘  要:词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。Word sense disambiguation(WSD) is the key problem in natural language processing because the result of WSD affects seriously many problems in natural language processing and information retrieval. Because of the failure of manpower on WSD, many supervised methods in machine learning were used on this problem. In this paper, a supervised method is proposed to formalize the senses of polysemous word with interesting term weight based on vector space model, then to deal with WSD with k-NN(k=1). The experiments on 9 Chinese polysemous words in both open test and close test with average accuracy 96.31% in close test and 92.98% in open test show that the method in this paper is very good.

关 键 词:词义消歧 向量空间模型 义项矩阵 自然语言理解 有导机器学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象