基于词聚类的热点话题检测算法  被引量:27

Kind of hot topic detection algorithm based on clustering keywords

在线阅读下载全文

作  者:龙志祎[1] 程葳[1] 

机构地区:[1]北京城市学院人工智能研究所,北京100083

出  处:《计算机工程与设计》2011年第6期2214-2216,F0003,共4页Computer Engineering and Design

基  金:国家863高技术研究发展计划基金项目(2005AA147030);国家242信息安全计划基金项目(2005A37)

摘  要:对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。A new algorithm for hot topic detection using words clustering is proposed. First documents space is converted to words space by word segmentation and extraction of key words considering the length of the document, then hot topic cluster is detected using words clustering algorithm based mutual information. Hot topic recall and the pure of the topic is measured on the TDT5 corpus. Experiments show that the average recall of hot topic detection reaches to 83.8%, the average pure of the topic cluster reaches to 94.4%; the detected hot topic is easily understandable.

关 键 词:互信息 词聚类 热点话题发现 特征词抽取 词汇语义相似度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象