检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:尹红 陈雁 李平[1] YIN Hong;CHEN Yan;LI Ping(Center of Intelligence and Networked System,School of Computer Science,Southwest Petroleum University,Chengdu,Sichuan 610500,China)
机构地区:[1]西南石油大学计算机科学学院智能与网络化系统研究中心
出 处:《中文信息学报》2019年第11期107-114,共8页Journal of Chinese Information Processing
基 金:国家自然科学青年基金(61503312)
摘 要:关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。Key-phrase extraction aims to automatically identify important key-phrases from documents.Most existing methods are focused on the words’importance and the relation between words.Considering that key-phrase should closely related to the article’s topics,we proposed an improved method based on topic entropy.Our work firstly use Latent Dirichlet Allocation to train the theme distribution of documents and words,and combine them to get the words’topic distribution of a specific document.Then words’topic entropy are worked out to represent the words’importance.Finally,we use random walk on words’co-occurrence graph to calculate the score of each candidate phrase.Experimental results show that proposed method has an improvement of 2.61%-6.98%in F1 score compared with the existing methods.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229