检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山西大学数学科学学院,太原030006 [2]山西大学计算机与信息技术学院,太原030006 [3]山西大学计算智能与中文信息处理教育部重点实验室,太原030006
出 处:《电脑开发与应用》2012年第1期1-5,共5页Computer Development & Applications
基 金:国家自然科学基金资助项目(60875040;60970014);教育部高等学校博士点基金(200801080006);山西省自然科学基金资助项目(2010011021-1);山西省科技攻关项目(20110321027-02);太原市科技局明星专项(09121001)
摘 要:特征选择在文本聚类中起着至关重要的作用,将产生式模型Latent Dirichlet Allocation(LDA)引入基于K-means算法的文本聚类中,通过提取特征与隐含主题的关系进行特征选择。在第2届中文倾向性分析评测的语料上的实验结果表明,当选择2%的特征时,相对于单词贡献度(TC,Term Contribution)方法的纯度和F值分别提高了0.15和0.16,相对于LDA直接得到文本与主题的关系的实验结果的纯度和F值分别提高了0.14和0.13。Feature selection plays an important role in texts clustering.In this paper,we used Latent Dirichlet Allocation(LDA),a production model,in K-means cluster algorithm,which select the features by extracting the relation between features and the implication topics.On the corpus of COAE2009,the experiments indicate that when we select two percent of the whole features,purity and F-measure are increased 0.15 and 0.16 compared with the TC feature select algorithm,0.14 and 0.13 compared with the clustering results of LDA,respectively.
关 键 词:文本聚类 特征选择 LATENT DIRICHLET ALLOCATION
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.27.229