检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海交通大学信息安全工程学院,上海200240
出 处:《计算机工程》2008年第18期39-41,44,共4页Computer Engineering
基 金:国家自然科学基金资助项目(60502032;60402019);教育部新世纪优秀人才支持计划基金资助项目(NCET-06-0393)
摘 要:文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。Text clustering, one of the most important research braches of clustering, is the application of clustering algorithm in text processing. This paper discusses different Vector Space Model(VSM)-based clustering algorithms and presents an improved text clustering algorithm Level-Panel(LP) algorithm. In addition, according to the effects of clustering for the corpus, it presents optimizations of clustering algorithm, including dimension determining, feature selection, etc. It is proved that LP algorithm can effectively reduce the time spending in clustering process. It is high in practicability and flexibility.
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222