潜在语义分析中主题数的确定方法  被引量:1

Determination method of the number of topics in latent semantic analysis

在线阅读下载全文

作  者:张俊博[1] 李健[1] 张宏宇 

机构地区:[1]中国电子科技集团公司第三十二研究所,上海200233 [2]海军指挥所,北京100080

出  处:《信息技术》2016年第7期96-100,共5页Information Technology

摘  要:潜在语义分析的主要思想是通过奇异矩阵分解的方法将高维向量空间模型表示的文档映射到低维的潜在语义空间。在采用潜在语义分析对自然语言文档进行分类的过程中,一个关键的问题是如何确定主题数。通常的做法是在降维过程中缩减保留奇异值数目,使得保留的奇异值的平方和达到所有奇异值平方和的90%。此保留奇异值的数目即主题数,但这种方式并不够准确有效。为能够更加准确地确定主题数,文中提出了另一种自动确定主题数的有效方法。测试结果表明,该方法能够自动有效确定主题数。The basic principle ol the latent semantic analysis ( LS A ) is to m a p the documents representsby the high-dimensional vector space model to a low-dimensional latent semantic space through thesingular matrix decomposition method. In the process ol classifying natural language documents withL S A ,one of the key problems is how to determine the topic number. The c o m m o n practice is to reducethe number of reserved singular values in the process of reducing dimensions,in order to make the sum ofthe squares of the reserved singular values to contain the 9 0 % of the sum of squares of all singularvalues. The number of the reserved singular values is the topic number,but this way is not accurate andeffective enough. To determine the topic number more accurately, this paper proposes an automaticmethod to determine the number of topics. The experimental results show that this method canautomatically and effectively determine the topic number.

关 键 词:潜在语义分析 奇异矩阵分解 主题数 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象