检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机科学》2006年第1期236-239,共4页Computer Science
基 金:Supported by the Natural Science Foundation of Chongqing Province of China under Grant No. 8721(重庆市自然科学基金);Chinese Doctor Stie research grant No.20030487032 (中国博士点基金).
摘 要:本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务.一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集 Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。In this paper, we present a novel text classification method . It views a sentence as an association transaction, and a paragraph as a sequence, then a document becomes a set of sequneces. We find maximal frequent sequences from each training document to present it, so the training and classification speed can be improved greatly. The effectiveness of this method has been demonstrated comparable to well-known alternatives and much better than current document-level words association based methods on the Reuters corpus.
关 键 词:文本分类 句子级 最大序列 频繁序列 句子 分类方法 文本表示 分类精度 实验证明 类速度
分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP311.131[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112