检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈新蕾[1] 庞琳[2] 贾岩涛[1] 李晓静[1] 王元卓[1] 刘悦[1] 刘春阳[2]
机构地区:[1]中国科学院计算技术研究所,北京100190 [2]国家计算机网络应急技术处理协调中心,北京100029
出 处:《山西大学学报(自然科学版)》2015年第4期553-559,共7页Journal of Shanxi University(Natural Science Edition)
基 金:国家"九七三"重点基础研究发展计划基金(2014CB340401;2013CB329601);国家自然科学基金(61173008;61100175;61232010;60933005;61402442);北京市科技新星计划(Z121101002512063);北京市自然科学基金青年基金(4154086)
摘 要:在领域知识库的构建过程中,领域概念的识别是一项非常重要的步骤。当前基于统计方法仅按词频进行领域概念的识别,而一些较长的重要领域概念恰恰是低频词,因而对低频领域概念识别准确率不高。为了提高低频领域概念的识别准确率,本文提出了一种基于词向量的加权HITS算法。此方法首先将开放文本中的领域概念表示为词向量,然后使用加权HITS算法计算其领域相关度,最终筛选出领域相关度超过一定阈值的领域概念构建领域知识库。实验证明,本文提出的方法与现有方法相比,在领域概念识别的准确率和召回率方面有一定的改进。特别地,该方法将低频领域概念识别召回率提高了10%。In the construction of the domain knowledge base,domain concepts recognition is a very important step.So far,statistics-based methods recognize the domain concepts only by word frequency,while word frequency of long important domain concepts is very low,so they can't recognize the low-frequency domain concepts well.In order to improve the recognition rate of low-frequency domain concepts,a word vector-based weighted-HITS method is proposed.The word is first expressed as a vector,and then the domain pertinence is decided using weighted-HITS,finally the domain concepts of which domain pertinence exceeds a threshold value are populated into the domain knowledge base.The experiments shows that compared with existing methods,it performs better in recognizing domain concepts.Especially,the recall of the low-frequency domain concepts is improved by 10%.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.143