基于非负矩阵分解的中文文本主题分类  被引量:3

Topic Classification of Chinese Document Based on NMF

在线阅读下载全文

作  者:张磊[1] 冯晓森[1] 项学智[1] 

机构地区:[1]哈尔滨工程大学信息与通信工程学院,哈尔滨150001

出  处:《计算机工程》2009年第13期26-27,54,共3页Computer Engineering

基  金:国家自然科学基金资助项目"基于Lattice的汉语语音主题分类方法研究"(60702053);国家自然科学基金资助项目"基于子词网格的汉语语音检索关键技术研究"(60575030)

摘  要:提出基于非负矩阵分解(NMF)的中文文本主题分类方法,应用NMF算法分解词-文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在潜在语义数据降低较大的情况下,NMF方法具有更好的分类精度。This paper presents a method based on Non-negative Matrix Factorization(NMF) for Chinese document topic classification. According to NME the term-document matrix is decomposed to reveal the relationship between terms. This method solves the problem of synonym and polysemy effectively. Compared with Latent Semantic Indexing(LSl) based on Singular Value Decomposition(SVD), experimental results show that this method has faster computing speed and less memory occupancy. It can improve classification precision when the number of latent semantic index is reduced pronouncedly.

关 键 词:主题分类 非负矩阵分解 潜在语义索引 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象