检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]天津大学系统工程研究所 [2]上海海事大学计算机系,上海200135
出 处:《计算机工程与应用》2006年第30期157-159,共3页Computer Engineering and Applications
基 金:国家自然科学基金资助项目(编号:60275020);上海市教委科研项目(编号:04FB22);上海海事大学重点学科建设项目(编号:XL0101)
摘 要:文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。Vector Space Model is usually used to express text feature in data mining.Text feature matrix has large dimensionality,and leads to complex computation.So it is needed to reduce dimensionality of text feature matrix before mining data.Latent Semantic Analysis,Concept Indexing,Non-negative Matrix Factorization and Random Projection are some dimension reduction methods.After comparing and analyzing the meanings of the reduced space,the computing complexity and their differences,experiments demonstrate these methods not only can reduce dimensionality effectively, but also open out the semantic relations between text and term and improve mining efficiency and accuracy.
关 键 词:文本挖掘 降维 随机映射 非负矩阵分解 概念索引 隐含语义分析
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43