检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈晓云[1] 王步钰[1] 马友忠[1] 孙辉[1]
机构地区:[1]兰州大学信息科学与工程学院,甘肃兰州730000
出 处:《广西师范大学学报(自然科学版)》2007年第2期135-139,共5页Journal of Guangxi Normal University:Natural Science Edition
基 金:甘肃省自然科学基金资助项目(3ZS051-A25-035)
摘 要:为获取Web上中文人物的精确信息,特别是同名人的分辨,提出了一种基于LSSWM模型的交并式动态扩展聚类算法。通过构建中心词库,对每篇文档建立基于中心距离、中心段、篇章长度等潜在语义信息的语句-词条矩阵LSSWM,利用交并式动态扩展聚类算法,对相似文档进行聚类。实验表明,该算法在保持人物语义信息的连贯性、突出不同位置语义信息重要性的同时,对文档的聚类有较高的准确性。In order to find the exact information of Chinese people, especially to differentiate the namesake ,this paper proposes a intersection-union dynamic-extending clustering based on LSSWM Model. By constructing the Central-Words library of people's attributes the paper builds up the sentence-word matrix for each document based on Central distance, central paragraph, the document length and other semantic information. Then clustering the similar documents by intersection-union dynamic-extending clus- tering algorithm. The experimental results show that the algorithm can not only keep the consistency of the semantic information about personality and give prominence to the importance of semantic information of different positions, but also hold high clustering accuracy on documents data.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.226.52.76