改进的OPTICS算法及其在文本聚类中的应用  被引量:29

OPTICS-Plus for Text Clustering

在线阅读下载全文

作  者:曾依灵[1] 许洪波[1] 白硕[1] 

机构地区:[1]中国科学院计算技术研究所智能安全中心

出  处:《中文信息学报》2008年第1期51-55,60,共6页Journal of Chinese Information Processing

基  金:国家973资助项目(2004CB318109)

摘  要:基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。As a density based clustering algorithm, OPTICS is capable of showing the intrinsic corpus structure within a visual plot. However, due to the improper strategy in organizing the points in sparse space, the algorithm does not reach its best performance. To solve this problem, we proposed an effective result-reorganization strategy for reordering those sparse points. Based on this strategy, a new text clustering algorithm named OPTICS-Plus was proposed according to the characteristic of text mining fields. Experiment on FuDan text classification corpus shows that our result-reorganization strategy is capable of helping the teachability plots generating clearer views of corpus structures. Furthermore, a comparison with K-means proves that the clustering performance of OPTICS-Plus is actually satisfactory.

关 键 词:计算机应用 中文信息处理 OPTICS算法 密度聚类 文本挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象