基于特征信息增益权重的文本分类算法被引量：19

Classifying Text Corpus Based on Information Gain Weight of Feature

机构地区：[1]北京工业大学计算机学院多媒体与智能软件技术北京重点实验室,北京100022 [2]石家庄经济学院信息工程系,石家庄050031

出　　处：《北京工业大学学报》2006年第5期456-460,共5页Journal of Beijing University of Technology

基　　金：国家自然科学基金资助项目(60173014);北京市自然科学基金资助项目(4022003)

摘　　要：为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG) 特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C．它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类．这3种算法都具有较低的时间复杂度和实现简单的特点．实验结果表明,其中IG-C的分类效果最为理想．In order to improve the training speed of classifiers without losing their accuracy, three classifying algorithms based on information gain of features are provided in this work. They are IG-C1, IG-C2 and IG-C, which classifies unlabeled text according to features＇ weight generated in feature selection phase. All these approaches have two characteristics： lower time complexity and simpler implementation. The performance comparison between these algorithms and Naive Bayes, Vector Space Model using retuers 21578 and 20 newsgroup data sets, shows that IG-C algorithm is best one.

关键词：文本处理信息分类特征提取熵

分类号：TP274.3[自动化与计算机技术—检测技术与自动化装置]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征信息增益权重的文本分类算法被引量：19

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征信息增益权重的文本分类算法 被引量：19

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于特征信息增益权重的文本分类算法被引量：19