基于正例和未标文档的半监督分类研究

Research on Semi-Supervised Classification Based on Positive and Unlabeled Text Document

出　　处：《计算机技术与发展》2009年第6期58-60,64,共4页Computer Technology and Development

基　　金：国家自然科学基金资助项目(60673060)

摘　　要：针对负例类别很难获得训练样本的情况,提出了一种基于正例和未标文档的半监督分类方法。已知仅有正例文本的情况下,引入k-means聚类算法对未标样本集进行聚类,从未标样本集中选出最为可靠的负例样本信息,初始化分类器。基于EM的极大似然估计理论,在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本进行分类,并应用到M-step中修正分类器的参数值,迭代选择最优分类器。实验结果表明,该方法取得了较好的分类效果。Presents a high performance method classifying positive and unlabeled documents. The idea is to first use cluster to extract same reliable negative documents from the unlabeled set and initial a classifier. Then optimize our classifier with the expectation - maximization （EM） algorithm. In each E - step,would like to annotate the most reliable documents, which processed in M - step. After several iteration,ean select a better classifier with EM algorithm. The experiments show that this method achieves a high performance.

关键词：聚类 K-MEANS EM 分类

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于正例和未标文档的半监督分类研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于正例和未标文档的半监督分类研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索