检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京城市学院人工智能研究所,北京100083
出 处:《计算机工程》2009年第18期28-30,共3页Computer Engineering
基 金:北京市教育委员会科技发展计划面上基金资助项目(KM200600006002)
摘 要:针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。This paper analyses the Internet news reports and finds their characteristics such as redundancy, low centralization of the discussions and the topic drift. An Online Topic Detection(ODT) method for Internet is proposed. It defines the sub-topic to ignore the redundancies reports, presents the double-lays configuration for the low centralization of the discussions, and advances a topic tracking algorithm based on the sliding window. A topic detection system is build according to the method. The system is tested by the real data from the lnternet. The results present that this method is better than the single-pass method for ODT. The CDet of the method is under 0.14.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112