检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:魏霖静[1] 练智超[2] 王联国[1] 侯振兴[3]
机构地区:[1]甘肃农业大学信息科学技术学院,兰州730070 [2]南京理工大学计算机科学与工程学院,南京210094 [3]南京大学信息管理学院,南京210093
出 处:《计算机科学》2016年第12期229-233,259,共6页Computer Science
基 金:国家自然科学基金项目(034031122;61063028);江苏省自然科学基金青年基金(BK20150784);中国博士后面上资助(2015M581800);甘肃省科技支撑计划项目(1604WKCA011);陇原青年创新创业人才项目(2016-47)资助
摘 要:已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间;然后,设计了一个贪婪算法来筛选矩阵每行的低分数词条;最终,采用最大似然估计对文本差别信息进行平滑处理。仿真实验结果表明,所提方法的文档聚类质量优于其他分层与单层聚类算法,并且具有较好的可解释性与收敛性。The existing document clustering algorithms are based on the common similarity measurement, but ignore the semantics. So a document clustering algorithm based on maximizing the sum of the discrimination information provided by documents was proposed. Firstly, the discrimination information of term for the corresponding cluster and for the other clusters was analyzed separately, and the data set was transformed from input space to the difference scores matrix space. Then a greedy algorithm was designed to filter the terms with low score from each row of the matrix. Lastly, maximum likelihood estimation was used to smooth the document difference information. Simulation experiment results show that the proposed method has better cluster quality than the plat and hierarchical clustering algorithms, and has a good quality in interpretability and convergence.
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28