检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]辽宁工程技术大学软件学院,辽宁葫芦岛125105 [2]辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105
出 处:《计算机工程》2012年第9期288-290,共3页Computer Engineering
摘 要:话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。Against the problem that Topic Detection and Tracking(TDT) can not deal with the short message texts on microblog which have strong randomness and non-standard terms effectively, a detecting method of sudden topics on microblog based on the dynamic sliding window is proposed. It includes the use of windows to extract the information with potential sudden, the use of normalized Term Frequeney-Inverse Doeument Frequeney(TF-lDF) function which is combined with semantic to compute feature weight and build Vector Space ModeI(VSM), the use of the main idea of Single-Pass clustering algorithm and then improving it in order to generate the final clustering. Experimental results show that the algorithm has an accurate result in sudden tooic detection.
关 键 词:微博 突发话题 滑动窗口 语义相似度 空间向量模型 话题检测与跟踪
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.173