检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:庞皓明 冀俊忠[1] 刘金铎 姚垚 PANG Haoming;JI Junzhong;LIU Jinduo;YAO Yao(Beijing Key Laboratory of Multimedia and Intelligent Software Technology,Beijing University of Technology,Beijing 100124,China)
机构地区:[1]北京工业大学多媒体与智能软件技术北京市重点实验室
出 处:《计算机工程》2019年第6期242-248,共7页Computer Engineering
基 金:国家自然科学基金(61375059,61672065)
摘 要:基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特征映射保持输入文本特征的几何结构。基于样本的类别信息对样本点之间的距离进行修正,优先选择类别相同的样本点,以改善分类性能。在Reuters和20newsgroup数据集上的实验结果表明,与正则化极限学习机算法、AdaBELM算法等相比,该算法分类性能较好,F1-measure值可达91.42%。In the text classification process,the Extreme Learning Machine(ELM) randomly maps the input text features and presents a nonlinear geometric structure.As a result,the least square method cannot solve such nonlinear structures and thus affects the text classification performance.To solve this problem,this paper introduces a new manifold regularization and presents an improved algorithm based on extreme machine learning.The Laplace feature mapping is used to preserve the geometry of input text features.The distance between sample points is modified based on the category information of the sample,and the sample points with the same category are selected first to improve the classification performance.Experimental results on the datasets of Reuters and 20newsgroup show that,compared with the Regularization Extreme Learning Machine(RELM),AdaBELM and other algorithms,the proposed algorithm has better classification performance,and the F1-measure can reach 91.42%.
关 键 词:文本分类 监督学习 正则化极限学习机 流形正则化 特征映射
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222