特征序列分析方法在文本分类中的应用  

Application of Signature Sequence Analysis in Text Classification

在线阅读下载全文

作  者:卢炎生[1] 崔得暄[1] 邹磊[1] 

机构地区:[1]华中科技大学计算机科学与技术学院,武汉430074

出  处:《计算机工程》2006年第20期92-94,共3页Computer Engineering

摘  要:把计算生物学中DNA序列分析的一种方法应用到文本分类中,通过分析文档集所产生的可描述类别内在特征的特征序列,给出了一种文本分类方法SSAM,并在Reuters21578数据集上和其它几种常见分类方法的分类效果进行了比较,实验结果显示SSAM的分类效果优于传统的贝叶斯方法,而且具有较快的分类速度。This paper applies a method of DNA sequence analysis in computational biology to text classification, and puts forward a text classifying method called SSAM by analyzing the signature sequences generated by a document collection. The experimental result on Reuters21578 and the comparison with several other text classifying methods prove SSAM has a better performance than Naive Bayes, and has a rapid classifying speed.

关 键 词:文本分类 向量空间模型 特征序列 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象