检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《中文信息学报》2008年第1期51-55,60,共6页Journal of Chinese Information Processing
基 金:国家973资助项目(2004CB318109)
摘 要:基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。As a density based clustering algorithm, OPTICS is capable of showing the intrinsic corpus structure within a visual plot. However, due to the improper strategy in organizing the points in sparse space, the algorithm does not reach its best performance. To solve this problem, we proposed an effective result-reorganization strategy for reordering those sparse points. Based on this strategy, a new text clustering algorithm named OPTICS-Plus was proposed according to the characteristic of text mining fields. Experiment on FuDan text classification corpus shows that our result-reorganization strategy is capable of helping the teachability plots generating clearer views of corpus structures. Furthermore, a comparison with K-means proves that the clustering performance of OPTICS-Plus is actually satisfactory.
关 键 词:计算机应用 中文信息处理 OPTICS算法 密度聚类 文本挖掘
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28