基于独立分量分析的文本特征提取算法被引量：1

Algorithm for Feature Extraction of Text Based on Independent Component Analysis

出　　处：《电子技术（上海）》2012年第2期48-50,共3页Electronic Technology

基　　金：山东省青年科学家奖励基金(BS2010DX013);山东省软科学研究计划(2010RKGA1053)资助

摘　　要：文本特征提取的正确高效直接影响聚类结果准确率,针对文本特征提取中文本数据的高维、高噪声问题,提出采用独立分量分析作为文本特征词的提取技术。采用TF-IDF方法形成文本特征的数字描述矩阵--向量空间模型,使用独立分量分析算法实现对矩阵的关键特征词提取,使用非负矩阵分解及其扩展算法对矩阵进行聚类分析,实现聚类。The accuracy and effectiveness of feature extraction is the most important factor affecting text clustering.Aiming at reducing the high dimension and removing noise of feature vectors,this paper proposes an Independent Component Analysis（ICA） based algorithm for feature extraction.Firstly,we get a text preprocessing model： Vector Space Model by TF-IDF method.Secondly,we extract key character words by independent component analysis（ICA）.At last,we employ the non-negative matrix factorization（NMF） and its extensions to cluster on the subset of character words selected by ICA thereby implementing clustering.

关键词：文本聚类向量空间模型独立分量分析非负矩阵分解特征提取

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于独立分量分析的文本特征提取算法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于独立分量分析的文本特征提取算法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于独立分量分析的文本特征提取算法被引量：1