基于支持向量的最近邻文本分类方法  被引量:3

The nearest neighbor text classification method based on support vector

在线阅读下载全文

作  者:古丽娜孜.艾力木江 乎西旦.居马洪 孙铁利[2] 梁义[1] GULNAZ Alimjan;HURXIDA Jumahun;SUN Tieli;LIANG Yi(Department of Electronics and Information Engineering,Yili Normal University,Yining 835000,China;School of Information Science and Technology,Northeast Normal University,Changchun 130117,China;Department of Geographical Science,Northeast Normal University,Changchun 130024,China)

机构地区:[1]伊犁师范学院电子与信息工程学院,新疆伊宁835000 [2]东北师范大学计算机科学与技术学院,吉林长春130117 [3]东北师范大学地理科学学院,吉林长春130024

出  处:《智能系统学报》2018年第5期799-807,共9页CAAI Transactions on Intelligent Systems

基  金:伊犁师范学院一般项目(2016WXYB0004);伊犁师范学院重点项目(2016YSZD04);国家自然科学基金项目(61663045);新疆高校科研计划重点研究项目(XJEDU2014I043)

摘  要:文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。Text categorization automatically assigns a set of predefined categories or topics to a document.In text classification,the representation of the document has a great influence on the learning performance of the learning machine.The aim is to achieve Kazakh text classification,according to Kazakh grammar rules,the stemming of Kazakh texts is designed to complete the preprocessing of Kazakh text.A sample distance formula based on the latest support vector machine(SVM)is proposed to avoid the selection of k-parameters.The Kazakh texts are classified by special combination of SVM and KNN classification algorithms(SV-NN).Combining the corpus of Kazakh text corpora constructed by himself,text categorization simulation experiments were conducted.Numerical experiments showed the effectiveness of the proposed algorithm and confirmed the theoretical results.

关 键 词:词干提取 预处理 支持向量机 文本分类 分类精度 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象