检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西安交通大学电子与信息工程学院,陕西西安710049
出 处:《信息与控制》2006年第5期657-661,共5页Information and Control
基 金:国家自然科学基金资助项目(60173058;60673087)
摘 要:针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text c lustering optim iza-tion model,TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.*A model named TCOM (text clustering optimization model ) based on expectation-maximization (EM) algorithm is proposed to solve the problem that the existing text clustering algorithms can not achieve satisfactory results. This model describes the similarity distribution of the similar and non-similar pair of clusters, and presents the importance distribution of the important and unimportant documents. The method based on TCOM optimizes the performance by merging different text clustered results. Experimental results show that clustering precision and recall are both improved, and its performance is higher than that of either hard clustering method or soft clustering method.
关 键 词:硬聚类 软聚类 EM算法 文本聚类优化模型(TCOM)
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249