一种基于特征提取的二级文本分类方法  被引量:1

A Two-level Text Classification Based on Feature Extraction

在线阅读下载全文

作  者:邹丽娜[1] 凌捷[1] 

机构地区:[1]广东工业大学计算机学院,广东广州510006

出  处:《广东工业大学学报》2012年第4期65-68,共4页Journal of Guangdong University of Technology

基  金:广东省教育部产学研合作资助项目(2011A090200068);广东省自然科学基金资助项目(9151009001000043)

摘  要:提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力.An improved two-level text classification method is proposed,based on feature extraction.First,the characteristics of the text were extracted,and the weights were calculated.Then,the text was represented as a vector composed of characteristics and weight value.The vector angle cosine was used to calculate the similarity among the text so as to position the vast amount of information more accurately and rapidly.The experimental results show that the proposed classification method is superior to the existing center classification method in accuracy of classification,improving the adaptability and classification ability of the system.

关 键 词:文本分类 特征提取 向量空间模型 KNN算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象