检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山东师范大学信息科学与工程学院,济南250014 [2]山东省分布式计算机软件新技术重点实验室,济南250014
出 处:《计算机应用研究》2015年第4期982-985,共4页Application Research of Computers
基 金:国家社科基金资助项目(12BXW040);国家自然科学基金资助项目(61373148);山东省自然科学基金资助项目(ZR2011FM030;ZR2012FM038);山东省优秀中青年科学家奖励基金资助项目(BS2013DX033)
摘 要:针对话题追踪静态阈值的缺点和虚假相关报道问题,提出一种基于动态阈值和命名实体双重过滤的话题追踪方法。该方法中,研究了KL距离计算初始阈值,并筛选出候选报道;然后,根据报道时间特点研究了动态阈值方法;最后,抽取追踪话题和测试报道中命名实体,计算命名实体间的相似度以及命名实体相同的个数来选出相关报道,完成话题追踪。通过实验证明该方法的可行性,实验结果表明基于动态阈值和命名实体双重过滤方法能有效地改善话题追踪的性能,并有效降低了话题追踪的误报率和漏报率。In order to overcome the shortcoming of the static threshold and the problem of the false reports,this paper put forward double filtering based on dynamic threshold and named entity of topic tracking. This method used the KL divergence to obtain the initial threshold and the candidate reports. Then,according to the time characteristics of reports,it studied dynamic threshold method. Finally,it extracted named entities of the reports to calculate similarity of named entities and the same number of named entities,which completed topic tracking. The experiment proves the feasibility of the algorithm and improves the efficiency of the topic tracking to a certain extent. In addition,it reduces the rate of false positives and non-response rates.
关 键 词:动态阈值 命名实体 双重过滤 KL距离 话题追踪
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222