检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王水涛 张思佳 孙旭菲 杨景杰 毕甜甜 张正龙 WANG Shuitao;ZHANG Sijia;SUN Xufei;YANG Jingjie;BI Tiantian;ZHANG Zhenglong(College of Information Engineering,Dalian Ocean University,Dalian 116023,China;Key Laboratory of Environment Controlled Aquaculture(Dalian Ocean University),Ministry of Education,Dalian 116023,China;Dalian Key Laboratory of Smart Fisheries,Dalian 116023,China)
机构地区:[1]大连海洋大学信息工程学院,辽宁大连116023 [2]设施渔业教育部重点实验室(大连海洋大学),辽宁大连116023 [3]大连市智慧渔业重点实验室,辽宁大连116023
出 处:《哈尔滨理工大学学报》2024年第6期22-31,共10页Journal of Harbin University of Science and Technology
基 金:辽宁省教育厅高等学校基本科研项目面上项目(LJKMZ20221095);辽宁省教育科学“十四五”规划课题(JG21DB076).
摘 要:针对多标签文本分类算法忽视噪声标签和缺乏真伪组合激励导致模型鲁棒性不强、分类效果不佳的问题,提出了适用于短文本数据集的融合级联BiLSTM和胶囊网络的噪声多标签文本分类算法(cascaded BiLSTM-capsule network for noisy multi-label text classification,CBCN)。该算法利用胶囊神经网络提取token间的空间语义特征,并采用多层级联BiLSTM对输入文本进行多层次特征提取,使用噪声样本训练和增强训练来区分真实标签和噪声标签,从而实现正确的多标签组合识别。实验结果表明:该算法在AAPD和RCV1-V2两个公开英文数据集上的准确率达到了89.1%和91.1%,对解决噪声多标签文本分类问题,具有较强的鲁棒性和泛化性能。Aiming at the problem that the multi-label text classification algorithm ignores the noise label and lacks the combination incentive of true and false,which leads to the weak robustness of the model and the poor classification effect,a cascaded BiLSTM-Capsule Network for Noisy Multi-Label Text Classification,CBCN,is proposed for short text datasets.The algorithm uses capsule neural network to extract spatial semantic features between tokens,and uses multi-layer cascaded BiLSTM to perform multi-level feature extraction from input text.It utilizes noise sample training and augmentation training to distinguish real labels from noise labels,thereby achieving correct multi-label combination recognition.The accuracy of the CBCN algorithm on the two public English data sets of AAPD and RCV1-V2 reaches 89.1%and 91.1%.This algorithm has strong robustness and generalization performance for solving noisy multi-label text classification problems.
关 键 词:文本分类 胶囊网络 噪声多标签算法 级联BiLSTM 鲁棒性
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.12.146.87