基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究  被引量:6

Research of Text Subject Extraction Based on Improved Weight for Bayesian Reasoning and TFIDF Algorithm

在线阅读下载全文

作  者:邵晓根[1] 鞠训光[1] 胡局新[1] 马忠伟[2] 

机构地区:[1]徐州工程学院信电工程学院,江苏徐州221111 [2]湘潭大学信息工程学院,湖南湘潭411105

出  处:《南京师大学报(自然科学版)》2014年第1期57-60,65,共5页Journal of Nanjing Normal University(Natural Science Edition)

基  金:科技部国家中小企业创新基金项目(11C26213204533);徐州市科技计划项目(XF11C052)

摘  要:本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%.The shortcoming of the TFIDF algorithm is improved for Chinese text topic word extraction. This paper considers the keywords appearing frequency,position weight in the text,the hybrid algorithm of Bayesian Reasoning and TFIDF was designed to extracte topic words,and the topic words was extracted from forward,reverse and middle based on sorting position of the candidate words. The results was higher average accuracy than the simple TFIDF by 6. 2%.

关 键 词:贝叶斯推理 位置权重 提取 TFIDF算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP301[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象