检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周雪梅[1] 闫用杰[1] 程山英[1] 刘逸哲[2]
机构地区:[1]江西科技师范大学数学与计算机科学学院,南昌330038 [2]上海电机学院,上海201306
出 处:《南昌航空大学学报(自然科学版)》2015年第3期32-37,共6页Journal of Nanchang Hangkong University(Natural Sciences)
基 金:江西省教育厅项目(GJJ14585);江西省社会科学研究规划项目(14TQ07);江西省高校人文社会科学研究项目(JC1428)
摘 要:Single Pass聚类算法是话题发现中最常用的文本聚类算法,且广泛地用于话题检测和跟踪中。但它的聚类结果并不理想,此外,Single Pass在对报道与话题进行相似度匹配时导致了处理速度的降低。基于这2个问题,本研究提出了一种文本重构思想。即通过对论坛或网页信息的再组织,将和话题相关的主要信息集中在一起形成主题块,其余的部分形成细节块。在此基础上,对Single Pass聚类算法进行了改进。实验结果证明:改进的Single Pass聚类算法有效地解决了文本特征矩阵稀疏的问题,并能够准确并及时地识别网络中的热点话题,同时展示话题的层次性结构。Single Pass is a very common text clustering algorithm,which is widely used in topic detection and tracking. But in process of Single Pass algorithm,clustering result is not satisfactory,and furthermore,similarity matching reduces processing speed. Focusing on the two defects,the idea of reconstructing text is put forward,which considers the typical features of a topic as theme part and the content as details part through the reorganization of the forum or web information. On this basis,Single Pass clustering algorithm is improved. The results of the experiment prove that this method can solve the problem of sparse sample characteristics effectively,detect network hot topics timely and accurately,display the hierarchical structure at the same time.
关 键 词:网络舆情 SinglePass 话题检测 文本重构
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147