基于互信息的话题特征选择方法研究  被引量:4

Research on Topic Feature Selection Based on Mutual Information

在线阅读下载全文

作  者:吴树芳[1] 徐建民[2] 朱杰[3] 

机构地区:[1]河北大学管理学院,保定071002 [2]河北大学计算机科学与技术学院,保定071002 [3]中央司法警官学院信息管理系,保定071002

出  处:《情报杂志》2015年第4期160-164,共5页Journal of Intelligence

基  金:河北省自然科学基金项目"基于贝叶斯网络的话题识别和追踪方法研究"(编号:F2015201142);河北省自然科学基金项目"基于本体的贝叶斯网络信息检索模型扩展"(编号:F2011201146)

摘  要:特征选择是舆情监测系统构建的关键步骤之一,好的特征选择方法可以在降低系统时间消耗的同时,提高舆情监测的准确性。针对话题特征提取方法 ITF-IDF没有考虑类别信息的缺点,尝试将互信息用于话题特征提取,提出改进的互信息计算方法 CMI和DCMI。CMI方法融入了聚类思想,对新闻报道进行分组验证,DCMI在CM I的基础上,将时间信息量化为时间距离,实现特征互信息的动态更新。实验结果显示,DCM I的性能明显优于基本互信息方法和ITF-IDF方法。Feature selection is one of the key steps to build an opinion monitoring system,and a good feature selection method should both reduce time consumption and improve the accuracy of opinion monitoring. Since the existing topic feature selection method ITF-IDF doesn't consider category information,we attempt to use mutual information for topic feature selection and propose tw o modified mutual information methods CM I and DCM I. CM I merges clustering and testifies new s stories by group; DCM I quantifies time information as time distance to dynamically update feature mutual information. Experiment results indicate that the performance of DCM I is obviously better than the basic mutual information and ITF-IDF methods.

关 键 词:互信息 话题 特征提取 CMI DCMI 时间信息 

分 类 号:G350[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象