面向文本分类的特征词选取方法研究与改进被引量：7

Feature Word Selection for Document Classification

作　　者：李国和[1,2,3] 岳翔[1,2] 吴卫江[1,2,3] 洪云峰刘智渊程远

机构地区：[1]中国石油大学(北京)地球物理与信息工程学院,北京102249 [2]中国石油大学(北京)油气数据挖掘北京市重点实验室,北京102249 [3]石大兆信数字身份管理与物联网技术研究院,北京100029

出　　处：《中文信息学报》2015年第4期120-125,共6页Journal of Chinese Information Processing

基　　金：国家高新技术研究发展计划(2009AA062802);国家自然科学基金(60473125);中国石油(CNPC)石油科技中青年创新基金(05E7013);国家重大专项子课题(G5800-08-ZS-WX)

摘　　要：中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。Abstract.- Feature words selection from texts is a significant step in Chinese text information pre-processing. After the seg- mentation of Chinese texts, a Vector Model constructed by feature words representing the Chinese text documents cannot a- void low accuracy of document classification （or document retrieval） due to the sparseness and high-dimension of feature words. On the basis of an analysis of several classical text feature selection methods, a new method of text feature selection （DC） is presented, which is based on a modified document frequency. Experiments prove the performance of DC, is better than that of typical other methods according to macro-F values and micro-F values.

关键词：文本文档特征词特征选取文本分类

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向文本分类的特征词选取方法研究与改进被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向文本分类的特征词选取方法研究与改进 被引量：7

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

面向文本分类的特征词选取方法研究与改进被引量：7