基于多特征的中文关键词抽取方法  被引量:6

CHINESE KEYWORD EXTRACTION METHOD BASED ON MULTI-FEATURES

在线阅读下载全文

作  者:杨颖[1] 戴彬[2] 

机构地区:[1]川北医学院基础医学院,四川南充637100 [2]西华师范大学商学院,四川南充637009

出  处:《计算机应用与软件》2014年第11期109-112,共4页Computer Applications and Software

基  金:四川省教育厅2010年青年基金项目(10ZC102)

摘  要:关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。Keywords extraction is the basis for the techniques of information retrieval,text classification,text clustering and automatic summarisation.According to the analysis on shortcomings of traditional Chinese keyword extraction methods,we propose a multi-feature-based Chinese keyword extraction method.The method comprehensively inspects the keywords in the process of Chinese keyword extraction from multiple features such as the word frequency,correlation,part of speech( POS) and position,etc.,and effectively avoids the derivations in traditional keywords extraction methods.Experimental results demonstrate that the average recall rate of the keywords extraction improves significantly on different test sets compared with traditional methods.

关 键 词:关键词抽取 词频 关联度 文本聚类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象