限定语义距离的关键词同义扩展及精简  被引量:2

Keyword synonymous expansion and reduction methods based on limited semantic distance

在线阅读下载全文

作  者:段利国[1] 陈俊杰[1] 

机构地区:[1]太原理工大学计算机科学与技术学院,太原030024

出  处:《计算机工程与应用》2011年第23期13-16,24,共5页Computer Engineering and Applications

基  金:国家自然科学基金No.60970059;山西省国际科技合作计划项目(No.2009081022)~~

摘  要:针对现存的单纯借助同义词词林或知识词典扩展关键词方法中存在噪音数据和计算量大的问题,提出了先扩展后精简的方法,即先利用同义词词林进行同义扩展,再利用知网义原树计算扩展词之间的语义距离,依据语义距离剔除相似度较小的噪音数据,实现关键词集合的精简。实验表明,当词语相似度阈值取0.8时,精简比例高达46.9%,精简后的关键词集合有效剔除了噪音数据,兼顾了信息检索的召回率和准确率,表现出良好的综合性能。In order to solve the problem that existing method,which employs only the tongyici cilin or knowledge dictionary,has noise data and vast calculations,the method to extend Keywords first and reduce them afterwards is put forward in this paper.The method expands synonyms using the tongyici cilin firstly and then calculates their semantic distance of extended synonyms by means of the HowNet sememe tree.This method can realize the reduction of keywords set by eliminating the noise data with low similarity according to the semantic distance.When the threshold value is 0.8,the proportion of reduction attains 46.9% and the reduced keywords set gets rid of noise data effectively and takes both recall and accuracy rate into account.Experiments results show that this method realizes favorable performance.

关 键 词:汉语问答系统 关键词扩展 义原树 关键词集合精简 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象