检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:古丽娜孜.艾力木江 乎西旦.居马洪 孙铁利[2] 梁义[1] GULNAZ Alimjan;HURXIDA Jumahun;SUN Tieli;LIANG Yi(Department of Electronics and Information Engineering,Yili Normal University,Yining 835000,China;School of Information Science and Technology,Northeast Normal University,Changchun 130117,China;Department of Geographical Science,Northeast Normal University,Changchun 130024,China)
机构地区:[1]伊犁师范学院电子与信息工程学院,新疆伊宁835000 [2]东北师范大学计算机科学与技术学院,吉林长春130117 [3]东北师范大学地理科学学院,吉林长春130024
出 处:《智能系统学报》2018年第5期799-807,共9页CAAI Transactions on Intelligent Systems
基 金:伊犁师范学院一般项目(2016WXYB0004);伊犁师范学院重点项目(2016YSZD04);国家自然科学基金项目(61663045);新疆高校科研计划重点研究项目(XJEDU2014I043)
摘 要:文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。Text categorization automatically assigns a set of predefined categories or topics to a document.In text classification,the representation of the document has a great influence on the learning performance of the learning machine.The aim is to achieve Kazakh text classification,according to Kazakh grammar rules,the stemming of Kazakh texts is designed to complete the preprocessing of Kazakh text.A sample distance formula based on the latest support vector machine(SVM)is proposed to avoid the selection of k-parameters.The Kazakh texts are classified by special combination of SVM and KNN classification algorithms(SV-NN).Combining the corpus of Kazakh text corpora constructed by himself,text categorization simulation experiments were conducted.Numerical experiments showed the effectiveness of the proposed algorithm and confirmed the theoretical results.
关 键 词:词干提取 预处理 支持向量机 文本分类 分类精度
分 类 号:TP309[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.198