检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胥桂仙[1,2] 陈哲 马慧麟[2] XU Guixian;CHEN Zhe;MA Huilin(Key Laboratory of Ethnic Language Intelligent Analysis and Security Governance of MOE,Minzu University of China,Beijing 100081,China;College of Information Engineering,Minzu University of China,Beijing 100081,China)
机构地区:[1]中央民族大学民族语言智能分析与安全治理教育部重点实验室,北京100081 [2]中央民族大学信息工程学院,北京100081
出 处:《中文信息学报》2023年第12期54-61,共8页Journal of Chinese Information Processing
基 金:国家社会科学基金(19BGL241)。
摘 要:针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO中,然后将提取到的全部特征分别经过TextCNN和BiLSTM通路以提取不同层次特征,将提取到的特征与CINO提取的[CLS]特征在融合层进行多特征融合,最终通过分类器实现分类。基于藏文数据集TNCC进行文本分类实验,结果表明相较于CINO模型,该文提出的算法对藏文文本类别的识别能力有一定的提高。This paper proposes a Tibetan text classification model based on multi-feature fusion and multi-language pre-training(MFMLP),which is based on the minority language pre-training model(CINO),TextCNN and BiLSTM.This approach inputs the segmentation of dataset into CINO,and then passes all the extracted features through the TextCNN and BiLSTM channels to extract feature at different levels.The extracted feature are combined with the[CLS]feature extracted by CINO at the fusion layer.Based on the Tibetan data set(TNCC),the experiment shows certain improvements compared with the CINO model in text classification task.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.147.83.1