检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华南理工大学软件学院,广东广州510006 [2]华南理工大学计算机科学与工程学院,广东广州510006
出 处:《计算机工程与设计》2012年第8期3214-3218,共5页Computer Engineering and Design
基 金:广东省科技计划基金项目(2010B010600017)
摘 要:话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。Topic detection technology is based on news hotspot mining on Internet. To solve the traditional topic detections do not make full use of categories information and named entity in reports. So, a new topic detection method based on multi-vector similarity calculation and secondary clustering is proposed, which classifies the reports according to its site hierarchy, and uses information of characters and locations to distinguish the topics. Furthermore, it utilizes the time aggregation behavior of reports to do partial clustering on the set of reports in the same day, and then merged the results with the old topics. The experimental results show that (CDet)Norm of the new method achieves 0. 197, and its performance is about 8% better than traditional methods.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229