一种改进的基于VSM的文本分类算法  被引量:8

Improved VSM based on Chinese text categorization

在线阅读下载全文

作  者:张彰[1] 樊孝忠[1] 

机构地区:[1]北京理工大学计算机科学系,北京100081

出  处:《计算机工程与设计》2006年第21期4078-4080,共3页Computer Engineering and Design

摘  要:在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。Vector space.model is widely used to represent the text in text auto classification. But VSM takes text as a bag of words and ignores the text structure information. The basic VSM method is improved by using different arithmetic to compute the affection of dif- ferent part of the text to classification, the affection of the first sentence and last sentence of paragraphs and title is computed by core word co-occurrence arithmetic, basic VSM method is used to compute other parts' affection. The class by sum of the two parts' affection with different weight is decided. The experimental result show, the precision, recall and F 1 value are improved.

关 键 词:文本分类 向量空间模型 文本结构信息 核心词 共现 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象