检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:姜艺 黄永[1,2] 夏义堃[3] 李鹏程 陆伟[1,2] Jiang Yi;Huang Yong;Xia Yikun;Li Pengcheng;Lu Wei(School of Information Management,Wuhan University,Wuhan 430072;Institute for Information Retrieval and Knowledge Mining,Wuhan University,Wuhan 430072;Center for Studies of Information Resources,Wuhan University,Wuhan 430072)
机构地区:[1]武汉大学信息管理学院,武汉430072 [2]武汉大学信息检索与知识挖掘研究所,武汉430072 [3]武汉大学信息资源研究中心,武汉430072
出 处:《情报学报》2021年第2期152-162,共11页Journal of the China Society for Scientific and Technical Information
基 金:国家社会科学基金重大项目“基于认知计算的学术论文评价理论与方法研究”(17ZDA292)。
摘 要:传统的关键词自动抽取常以候选词的出现频次、位置等非语义信息构建特征,并未考虑关键词在学术文献中承担的特定语义角色,即词汇功能。通过对现有数据统计,本文发现作者标注关键词中约有67.99%是研究问题或研究方法词。因此,本文将关键词的词汇功能分为三类:“研究问题”“研究方法”和“其他”,在传统的词频特征以及位置特征基础上,融合词汇功能特征,使用计算机领域的学术文献基于分类和排序两种思想进行关键词抽取实验。实验结果表明,融合词汇功能后,关键词抽取效果得到明显提升。相较于基准实验,二分类模型的准确率Acc和F值分别相对提升24.63%和25.19%,达到了0.840和0.666;排序模型的MAP、NDCG@5和P@5分别相对提升168.32%、189.50%和148.30%,提升至0.813、0.828和0.447,证明了学术文献词汇功能特征在关键词自动抽取中具有重要作用。Traditional automatic keyword extraction often uses non-semantic information such as the frequency and location of candidate keywords to construct features without considering the specific semantic role of keywords in the academic text,that is,lexical function.Our statistical analysis found that 67.99%of the keywords in our dataset represented research questions or methods.Therefore,we classified lexical functions into three categories:Research Questions,Research Methods,and Others.Then,based on the word frequency and position features,a method was proposed to implement lexical functions in computer science papers through a classification model and ranking model.The results showed that our method could outperform the baseline with base features.The Acc and F of the classification model were improved to 0.840 and 0.666,with relative improvements of 24.63%and 25.19%,respectively.The MAP,NDCG@5,and P@5 of the ranking model improved by 168.32%,189.50%,and 148.30%,reaching 0.813,0.828,and 0.447,respectively.All improvements showed that lexical functions play an important role in automatic keyword extraction.
关 键 词:词汇功能 关键词抽取 支持向量机 学习排序 学术文本
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249