基于差异性评估对Co-training文本分类算法的改进被引量：4

An Improved Co-training Text Categorization Algorithm Based on Diversity Measures

机构地区：[1]大连海事大学信息科学技术学院,辽宁大连116026 [2]烟台职业学院计算机与信息工程系,山东烟台264670

出　　处：《电子学报》2008年第B12期138-143,共6页Acta Electronica Sinica

基　　金：国家自然科学基金(No.60773084,J0724003,60603023);教育部博士点基金(No.20070151009)

摘　　要：Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.Co-training algorithm is constrained by its assumption that the features can be split into two compatible and independent subsets.However,the assumption is usually violated in real-world application,especially for independence.We discover its real purpose is to find two classifiers with certain accuracy and sufficient diversity to co-train.First,multi-views are created using different term evaluation functions.Second,instead of directly computing the independence between two sub-views,this paper evaluates the independence between two classifiers, trained on them, by using diversity measures indirectly. Thus a pair of classifiers with certain accuracy and greater diversity is selected. The experimental results show two improved algorithms named TV-SC and TV-DC are both outperform another co-training algorithm named Co-Rnd based on random splitting method, and TV-DC outperforms TV- SC.

关键词：半监督文本分类 CO-TRAINING 特征视图差异性评估标注文本未标注文本

分类号：TP181[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于差异性评估对Co-training文本分类算法的改进被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于差异性评估对Co-training文本分类算法的改进 被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于差异性评估对Co-training文本分类算法的改进被引量：4