基于句子级的最大频繁序列的文本分类  被引量:1

Text Classification Based on Sentence-level Maximal Frequent Sequence

在线阅读下载全文

作  者:邹晶[1] 冯剑琳[1] 李曲[1] 王元珍[1] 

机构地区:[1]华中科技大学计算机学院,武汉430074

出  处:《计算机科学》2006年第1期236-239,共4页Computer Science

基  金:Supported by the Natural Science Foundation of Chongqing Province of China under Grant No. 8721(重庆市自然科学基金);Chinese Doctor Stie research grant No.20030487032 (中国博士点基金).

摘  要:本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务.一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集 Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。In this paper, we present a novel text classification method . It views a sentence as an association transaction, and a paragraph as a sequence, then a document becomes a set of sequneces. We find maximal frequent sequences from each training document to present it, so the training and classification speed can be improved greatly. The effectiveness of this method has been demonstrated comparable to well-known alternatives and much better than current document-level words association based methods on the Reuters corpus.

关 键 词:文本分类 句子级 最大序列 频繁序列 句子 分类方法 文本表示 分类精度 实验证明 类速度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP311.131[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象