基于增量词集频率的文本主题词提取算法研究  被引量:5

Research of thematic terms extraction algorithm from Chinese text based on increment term set frequency

在线阅读下载全文

作  者:刘兴林[1,2] 彭宏[1] 马千里[1] 

机构地区:[1]华南理工大学计算机科学与工程学院,广州510640 [2]五邑大学计算机学院,广东江门529020

出  处:《计算机应用研究》2010年第9期3237-3238,3246,共3页Application Research of Computers

基  金:广东省自然科学基金资助项目(07006474,9451064101003233);广东省科技攻关资助项目(2007B010200044)

摘  要:提出了一种基于增量词集频率的文本主题词提取算法,其核心思想是计算主题词集频率增量,算法从候选主题词集提取主题词时,计算单个候选主题词对主题词集频率的增量,若增量小于给定阈值,则主题词提取算法结束,否则将该候选主题词加入主题词集,继续考察下一个候选主题词。实验结果表明,该算法取得了较好的效果,所获得的主题词能更贴切地反映文章的主要内容。This paper presented an algorithm of thematic terms extraction based on increment term set frequency,the main idea was to calculated the increment frequency of term set,when this algorithm got a term from candidate thematic term set,calculated the increment frequency,if the increment was less than a given threshold,then ended,otherwise,added the candidate thematic term into thematic term set,then next term. Experimental results show that this algorithm achieves sound effects,the thematic terms that acquires by this algorithm can more aptly reflect the main contents of the article.

关 键 词:增量词集频率 主题词 自然语言处理 

分 类 号:TP301[自动化与计算机技术—计算机系统结构] TP391[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象