基于LASVM-NC和TF.RF的文本分类方法  被引量:1

Text classification method based on non-convex online support vector machines and term frequency relevance frequency product

在线阅读下载全文

作  者:李玉鑑[1] 李玉雄[1] 冷强奎[1] 

机构地区:[1]北京工业大学计算机学院,北京100124

出  处:《计算机工程与应用》2014年第10期136-140,265,共6页Computer Engineering and Applications

基  金:国家自然科学基金(No.61175004;No.60775010);北京市自然科学基金(No.4112009);北京市教委科技发展项目(No.KZ201210005007);高等学校博士学科点专项科研基金(No.20121103110029)

摘  要:非凸在线支持向量机(LASVM-NC)具有抗噪能力强和训练速度快的优点,而词频相关频率积(tf.rf)则是一种自适应能力很强、分类性能非常好的文本特征。通过把非凸在线支持向量机和词频相关频率积相结合,提出了一种新的文本分类方法,即LASVM-NC+tf.rf。实验结果表明,这种方法在LASVM-NC与多种其他特征的结合中性能是最好的,且与SVM+tf.rf相比,不仅所产生的分类器具有泛化能力更强、模型表达更稀疏的优点,而且在处理含噪声的数据时具有更好的鲁棒性,在处理大规模数据时具有快得多的训练速度。Non-convex online support vector machine(LASVM-NC)has the advantages of strong anti-noise ability and fast training speed, while term frequency relevance frequency product(tf.rf)is a very good text feature for adaptive classification performance. LASVM-NC+tf.rf is proposed as a new text classification method by combining non-convex support vector machines with term frequency relevance frequency product. It has been shown that the method can perform better than LASVM-NC plus many other features. Moreover, the method can produce faster trained and more robust classifiers with greater generalization and sparser expression than SVM+tf.rf in processing noisy and large-scale datasets.

关 键 词:非凸在线支持向量机 支持向量机 特征项 词频 相关频率 文本分类 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象