基于词向量的开放文本领域概念识别方法  被引量:2

Word Vector-based Recognition for Unstructured Text Domain Concepts

在线阅读下载全文

作  者:陈新蕾[1] 庞琳[2] 贾岩涛[1] 李晓静[1] 王元卓[1] 刘悦[1] 刘春阳[2] 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]国家计算机网络应急技术处理协调中心,北京100029

出  处:《山西大学学报(自然科学版)》2015年第4期553-559,共7页Journal of Shanxi University(Natural Science Edition)

基  金:国家"九七三"重点基础研究发展计划基金(2014CB340401;2013CB329601);国家自然科学基金(61173008;61100175;61232010;60933005;61402442);北京市科技新星计划(Z121101002512063);北京市自然科学基金青年基金(4154086)

摘  要:在领域知识库的构建过程中,领域概念的识别是一项非常重要的步骤。当前基于统计方法仅按词频进行领域概念的识别,而一些较长的重要领域概念恰恰是低频词,因而对低频领域概念识别准确率不高。为了提高低频领域概念的识别准确率,本文提出了一种基于词向量的加权HITS算法。此方法首先将开放文本中的领域概念表示为词向量,然后使用加权HITS算法计算其领域相关度,最终筛选出领域相关度超过一定阈值的领域概念构建领域知识库。实验证明,本文提出的方法与现有方法相比,在领域概念识别的准确率和召回率方面有一定的改进。特别地,该方法将低频领域概念识别召回率提高了10%。In the construction of the domain knowledge base,domain concepts recognition is a very important step.So far,statistics-based methods recognize the domain concepts only by word frequency,while word frequency of long important domain concepts is very low,so they can't recognize the low-frequency domain concepts well.In order to improve the recognition rate of low-frequency domain concepts,a word vector-based weighted-HITS method is proposed.The word is first expressed as a vector,and then the domain pertinence is decided using weighted-HITS,finally the domain concepts of which domain pertinence exceeds a threshold value are populated into the domain knowledge base.The experiments shows that compared with existing methods,it performs better in recognizing domain concepts.Especially,the recall of the low-frequency domain concepts is improved by 10%.

关 键 词:开放文本 领域概念 加权HITS算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象