类别特征词权重加权文本分类方法  被引量:1

Text Classification Method Based on Class Feature Word Quadric Weight

在线阅读下载全文

作  者:万乐[1] 刘万春[1] 

机构地区:[1]北京理工大学计算机科学与工程系,北京100081

出  处:《军民两用技术与产品》2006年第3期38-39,45,共3页Dual Use Technologies & Products

摘  要:提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。A text classification method for small training set is provided. Initial feature veetor extracted by traditional automatic training is lack of plenty feature information. In order to enrich the feature information in feature vectors, this paper proposes a retraining method. In this method, some first-degree and seeond-degree class core feature words are picked out from the initial feature veetors. By the second automatic training, a weight factors for each degree can be obtained. Such factors are used as the weight of the weight of core feature words while measuring text/class similarity. In illustrations, the minimum coincidence rate of automatie elassification accuracy in our method is 94.12%, which is greatly improved from 52.94% in the traditional method.

关 键 词:文本分类 特征抽取 核心特征词 权重因子 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] O151.21[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象