基于机器学习的科技文摘关键词自动提取方法  被引量:15

Automatic extraction of key phrases from scientific articles based on machine learning method

在线阅读下载全文

作  者:刘佳宾[1] 陈超[1] 邵正荣[1] 吉翔华[1] 

机构地区:[1]中国科学技术大学电子工程与信息科学系,合肥230027

出  处:《计算机工程与应用》2007年第14期170-172,共3页Computer Engineering and Applications

基  金:国家自然科学基金(No.60672056);微软基金资助项目(No.2006120809)~~

摘  要:提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。In order to realize automatic key phrases extraction from scientific articles.This paper proposes a method that utilize a supervised machine learning method.In order to define the potential terms,This paper combines the n_grams method and Part Of 1 Speech(POS)method.We consider four features to represent terms,including term frequency,relative position of the first occurrence,relative position of the sentence and the number of tokens in a term.Experimental results show that this method performs perfect and is a general method to any field.

关 键 词:信息自动抽取 决策树 词性分析 n_grams方法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象