基于贝叶斯信息准则的文本主题数估计  被引量:5

Text Topic Number Evaluation Based on Bayes Information Criteria

在线阅读下载全文

作  者:王晓斌[1] 温春[1] 石昭祥[1] 

机构地区:[1]电子工程学院网络工程系,合肥230037

出  处:《计算机工程》2009年第7期183-185,共3页Computer Engineering

摘  要:特定领域的主题识别和关键词提取有着广泛的应用,但通过人工指定识别或文本聚类自动生成的主题类别缺乏客观的度量方法。该文结合基于BIC准则的模型选择理论和独立分量分析技术对主题的数量进行概率估计,给出主题数量在BIC意义下的统计分布。在此基础上实现了文档矩阵的ICA分解,并根据分离的独立分量获得主题的关键词及其权重。实验表明,该方法在没有领域知识支持的情况下能估计出反映文本集合的主题数并提取相应的关键词。There are many applications that can benefit from topic identification and keyword extraction. The traditional way of choosing the topic number depends on human labeling or automatic clustering which is immeasurable. This paper utilizes the Bayes lntonnation Criteria(BIC) based model selection theory to evaluate the probability of each topic numbers taking. After the topic number is acquired, the paper implements the Independent Component Analysis(ICA) decomposition of term-document, then calculates the weight and extracts the keyword according to the ICA separating matrix. Experiments show this method extracts the keyword in a meaningful way.

关 键 词:主题识别 关键词提取 独立分量分析 贝叶斯信息准则 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象