检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京城市学院人工智能研究所,北京100083
出 处:《计算机工程与设计》2011年第6期2214-2216,F0003,共4页Computer Engineering and Design
基 金:国家863高技术研究发展计划基金项目(2005AA147030);国家242信息安全计划基金项目(2005A37)
摘 要:对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。A new algorithm for hot topic detection using words clustering is proposed. First documents space is converted to words space by word segmentation and extraction of key words considering the length of the document, then hot topic cluster is detected using words clustering algorithm based mutual information. Hot topic recall and the pure of the topic is measured on the TDT5 corpus. Experiments show that the average recall of hot topic detection reaches to 83.8%, the average pure of the topic cluster reaches to 94.4%; the detected hot topic is easily understandable.
关 键 词:互信息 词聚类 热点话题发现 特征词抽取 词汇语义相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.158.138