面向网络论坛的突发话题发现  被引量:15

Outburst Topic Detection for Web Forums

在线阅读下载全文

作  者:陈友[1,2] 程学旗[1] 杨森[1,2] 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院研究生院,北京100049

出  处:《中文信息学报》2010年第3期29-36,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金重点项目资助(60933005);国家973基础研究计划资助项目(2007CB311100);国家863计划资助项目(2007AA01Z438)

摘  要:每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在"水木社区"的"水木特快"上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。Web forum has become an important resource on the Web due to its rich information contributed by millions of Internet users every day. Consequently, the outburst topic detection becomes a fundamental task in Search Engine and Web Mining systems. Most existing topic detection and tracking (TDT) methods deal with the news stories, which are proved not suitable for extracting topics in casual, oral and informal languageon the noisy Web formus. This paper presents a noise-filtered model to extract the outburst topics from web forums using terms and participations of users. The proposed model employs not only content similarity, but also user participation information. Experiments on ShuiMu community demonstrate the efficiency of the proposed model: not only extracting the outburst topics which are better organized for search and visualization but also discovering communities corresponding to these topics.

关 键 词:计算机应用 中文信息处理 突发话题 网络论坛 时间序列 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象