检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡晓辉 HU Xiaohui
机构地区:[1]江西机电职业技术学院信息工程学院,江西南昌330013
出 处:《信息技术与信息化》2022年第10期123-126,共4页Information Technology and Informatization
基 金:江西省教育厅科学技术研究项目(GJJ204203)。
摘 要:在自然语言处理领域,现有的文本分类算法Naive Bayes、KNN和SVM分类器,通常使用的是条件概率模型、向量空间模型。大多经典算法采用向量空间模型,其采用的文本特征未考虑基于类信息的文本表示方法。由于特征选择及文本表示方法在很大程度影响文本分类器性能,针对该问题,提出了一种新的基于特征重要度的文本表示方法。方法通过大量训练数据,建立相似矩阵、构造相似图,同时考虑特征词的类内外出现频率,找到每个类别的最优特征信息,使得文本分类算法在此文本表征下,分类效果大幅提升。文章在20newsgroups数据集上实验表明此方法对提高分类结果较为有效。
关 键 词:文本分类 文本表示 特征加权 机器学习 类别信息 特征选择
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.211