检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘佳宾[1] 陈超[1] 邵正荣[1] 吉翔华[1]
机构地区:[1]中国科学技术大学电子工程与信息科学系,合肥230027
出 处:《计算机工程与应用》2007年第14期170-172,共3页Computer Engineering and Applications
基 金:国家自然科学基金(No.60672056);微软基金资助项目(No.2006120809)~~
摘 要:提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。In order to realize automatic key phrases extraction from scientific articles.This paper proposes a method that utilize a supervised machine learning method.In order to define the potential terms,This paper combines the n_grams method and Part Of 1 Speech(POS)method.We consider four features to represent terms,including term frequency,relative position of the first occurrence,relative position of the sentence and the number of tokens in a term.Experimental results show that this method performs perfect and is a general method to any field.
关 键 词:信息自动抽取 决策树 词性分析 n_grams方法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229