带专业词库的特征选择  被引量:4

Feature Selection with Term Library

在线阅读下载全文

作  者:刘晓志[1] 黄厚宽[1] 尚文倩[1] 

机构地区:[1]北京交通大学计算机与信息技术学院,北京100044

出  处:《北京交通大学学报》2006年第2期97-100,共4页JOURNAL OF BEIJING JIAOTONG UNIVERSITY

基  金:铁道部重点开发资助项目(2005002)

摘  要:在经典特征选择算法的基础上,提出一种带专业词库的特征选择方法.在训练分类模型的时候,适当加重属于专业词汇的特征的权重.这种方法能够有效地避免特征选择时误删有用的低频词,因此,适合用于短文本的分类(电子邮件等).实验结果表明,本方法在抽取特征维数较少时,分类准确率提高约3%.Based on the classical feature selection algorithms, this paper proposes a new approach to improve feature selection by taking domain terms into consideration. When training a model, the features of a certain class will be weighted (added weight) if they turn up in a given term library. This method effectively avoids canceling low frequent but genuinely useful features by mistake. Thus, it is efficient especially for short text (such as mails) classification and can reduce the feature dimension.

关 键 词:文本分类 特征选择 权重 K-近邻 支持向量机 专业词库 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术] O235[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象