微博噪声过滤和话题检测  被引量:2

Micro-blog noise filtering and topic detection

在线阅读下载全文

作  者:奚浩瀚 刘云[1,2] 熊菲[1,2] 

机构地区:[1]北京交通大学电子信息工程学院,北京100044 [2]北京交通大学通信与信息系统北京市重点实验室,北京100044

出  处:《铁路计算机应用》2015年第3期19-21,32,共4页Railway Computer Application

基  金:国家自然基金(61172072);中央高校基本科研业务费(2014-JBM018)

摘  要:针对微博中充斥着的大量广告信息和其它的噪声微博,本文提出了基于C4.5决策树分类算法的用户分类过滤机制和基于特征值的计分过滤方法。利用微博文本的实时性和微博话题的时效性,还提出了一个基于时间参数的相似度计算方法。实验结果表明,该方法能提高对噪声过滤和话题检测的准确率和效率。Aiming at the big amount of advertising messages and other noise tweets, the paper proposed a user classiifcation ifltering mechanism based on C4.5 Decision Tree Classiifcation Algorithm and a scoring ifltering method based on characteristic value. Taking advantage of the instantaneity of micro-blog text and timeliness of micro-blog topic, the paper put forward a similarity calculation method based on time parameter. Experiments showed that this mechanism could detect topics and iflter noise with better accuracy and efifciency compared to the traditional approach.

关 键 词:噪声过滤 C4.5决策树 特征值 相似度计算 

分 类 号:U285[交通运输工程—交通信息工程及控制] TP39[交通运输工程—道路与铁道工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象