中文文本分类中的特征词抽取方法  被引量:16

Feature extraction methods for Chinese text classification

在线阅读下载全文

作  者:李晓红[1] 

机构地区:[1]西北师范大学数学与信息科学学院,甘肃兰州710070

出  处:《计算机工程与设计》2009年第17期4127-4129,共3页Computer Engineering and Design

摘  要:针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。At present, many feature select algorithms are only concern about the frequency information but not concern the position of characteristics, aiming at this phenomenon, a conception of position weighting is given, and algorithm of no word segmentation is modified appropriately under considering impression of the feature position, but also proposed improved method to combine information gain, CHI and mutual information based on this algorithm, it considered various information of characteristic to select useful characters more accurately. The comparison of experimental results shown that it is a efficient method.

关 键 词:特征抽取 无词典分词 位置权重 词条过滤 文本分类 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象