检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西安交通大学电子与信息工程学院,西安710049
出 处:《情报学报》2006年第4期488-492,共5页Journal of the China Society for Scientific and Technical Information
基 金:国家自然科学基金资助项目(编号:60173058).
摘 要:提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究.A new multilevel document clustering algorithm is proposed based on technique of dual-way nearest neighbor. It constructs document feature vector of subject and keyword separately by using a new method of document feature extraction. Firstly, it find the initial ducument clusters by using technique of dual-way nearest neighbor in document subject vector space, then in keyword vector space, re-clusters the initial clusters found above to improve the quality of clustering according to the cluster distance and the link intensity. For processing initial clustering by using technique of dual-way nearest neighbor, the efficiency and the precision of the algorithm are highly increasing. At last the efficiency, the scalability and time complexity of the algorithm have been discussed.
关 键 词:文档聚类 最近邻技术 双向最近邻 文档主题特征向量 主题关键字特征向量
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117