检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵丽[1,2] 齐兴斌[1] 李雪梅[1] 田涛[3]
机构地区:[1]山西大学计算机工程系,太原030013 [2]北京航空航天大学计算机学院,北京100191 [3]北京师范大学教育信息技术协同创新中心,北京100875
出 处:《计算机应用研究》2015年第5期1428-1432,1444,共6页Application Research of Computers
基 金:国家自然科学基金资助项目(61202163);山西省自然科学基金资助项目(2013011017-2);山西省科技攻关项目(20130313015-1)
摘 要:针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中提取术语;再利用潜在Dirichlet分配模型进行关系学习,构建基于图的分类器完成分类。在公开的Reuters-21578资源库上的分类实验评估了该方法的有效性,相比分类效果较好的支持向量机,该方法在大部分情况下能够取得更高的分类精度。For the issue that it is only a few labeled samples in really text classification environment which will affect the classification accuracy,this paper proposed a classification algorithm based on latent Dirichlet allocation using probabilistic topic model. Firstly,it used standard term frequency-inverse document frequency function to represent each document into term weight vector. Then,it used probabilistic topic model as pretreatment to simplify the document,and done term extraction from document. Finally,it used latent Dirichlet allocation model to do relational learning and used classification based on graph to finish classification. The effectiveness of proposed method has been verified by experiments on common resource library Reuters-21578. Experimental results show that proposed method has higher classification accuracy than support vector machine which has well classification effect in most cases.
关 键 词:文本分类 术语提取 图构建 概率主题模型 少量标记样本 潜在Dirichlet分配
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3