重复串特征提取算法及其在文本聚类中的应用  被引量:6

Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering

在线阅读下载全文

作  者:胡吉祥[1] 许洪波[1] 刘悦[1] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所

出  处:《计算机工程》2007年第2期65-67,共3页Computer Engineering

基  金:国家"973"计划基金资助项目(2004CB318109)

摘  要:针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词。实验表明,该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能。This paper proposes a novel term extraction method based on repeats, which can extract meaningful terms from text. For Chinese, it need not word segmentation. Experimental results show that the proposed approach can remarkably reduce the dimensionality and effectively improve the performance of traditional clustering algorithms.

关 键 词:文本聚类 特征提取 重复串 

分 类 号:TP312[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象