基于多特征融合与多语言预训练的藏文文本分类  被引量:1

Tibetan Text Classification Based on Multi-feature Fusion and Multi-language Pre-training

在线阅读下载全文

作  者:胥桂仙[1,2] 陈哲 马慧麟[2] XU Guixian;CHEN Zhe;MA Huilin(Key Laboratory of Ethnic Language Intelligent Analysis and Security Governance of MOE,Minzu University of China,Beijing 100081,China;College of Information Engineering,Minzu University of China,Beijing 100081,China)

机构地区:[1]中央民族大学民族语言智能分析与安全治理教育部重点实验室,北京100081 [2]中央民族大学信息工程学院,北京100081

出  处:《中文信息学报》2023年第12期54-61,共8页Journal of Chinese Information Processing

基  金:国家社会科学基金(19BGL241)。

摘  要:针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO中,然后将提取到的全部特征分别经过TextCNN和BiLSTM通路以提取不同层次特征,将提取到的特征与CINO提取的[CLS]特征在融合层进行多特征融合,最终通过分类器实现分类。基于藏文数据集TNCC进行文本分类实验,结果表明相较于CINO模型,该文提出的算法对藏文文本类别的识别能力有一定的提高。This paper proposes a Tibetan text classification model based on multi-feature fusion and multi-language pre-training(MFMLP),which is based on the minority language pre-training model(CINO),TextCNN and BiLSTM.This approach inputs the segmentation of dataset into CINO,and then passes all the extracted features through the TextCNN and BiLSTM channels to extract feature at different levels.The extracted feature are combined with the[CLS]feature extracted by CINO at the fusion layer.Based on the Tibetan data set(TNCC),the experiment shows certain improvements compared with the CINO model in text classification task.

关 键 词:多特征融合 多语言预训练 藏文文本分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象