基于潜在狄利克雷分配模型和互信息的无监督特征选取法  被引量:3

Unsupervised feature selection method based on latent Dirichlet allocation model and mutual information

在线阅读下载全文

作  者:董元元[1] 陈基漓[1] 唐小侠[2] 

机构地区:[1]桂林理工大学信息科学与工程学院,广西桂林541004 [2]桂林理工大学理学院,广西桂林541004

出  处:《计算机应用》2012年第8期2250-2252,2257,共4页journal of Computer Applications

摘  要:为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。To solve the category-deficiency and the tendency of selecting low-frequency words in feature selection process based on Mutual Information (MI), the method named LDA-σ was presented. Firstly, the latent topics were extracted by the Latent Diriehlet Allocation (LDA) model, and then the standard deviation of "Word-Topic" MI was calculated as the feature evaluation function. When conducting feature selection and categorization in Reuters-21578, the micro average F1 of LDA-σ reached up to 0. 909 6, and the highest macro average FI of LDA-σ was 0. 782 3, which were higher than that of other algorithms. The experimental results indicate that LDA-σ can be applied to feature selection in text sets.

关 键 词:潜在狄利克雷分配模型 互信息 评价函数 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP391.4[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象