Lacmia:抗混淆的多民族语言生成式摘要模型  

Lacmia:Language-Anti-confusioned Chinese Minority Abstractive Summarization Model

在线阅读下载全文

作  者:翁彧[1] 罗皓予 刘征 超木日力格 刘轩 董俊 WENG Yu;LUO Haoyu;LIU Zheng;Chaomurilige;LIU Xuan;DONG Jun(Key Laboratory of Ethnic Language Intelligent Analysis and Security Governance of MOE,Minzu University of China,Beijing 100081,China;School of Information Engineering,Minzu University of China,Beijing 100081,China)

机构地区:[1]中央民族大学民族语言智能分析与安全治理教育部重点实验室,北京100081 [2]中央民族大学信息工程学院,北京100081

出  处:《中文信息学报》2024年第10期80-94,共15页Journal of Chinese Information Processing

基  金:国家重点研究与发展计划(2020YFB1406702-3);北京市科技计划项目(Z231100001723002);国家自然科学基金(62006257)。

摘  要:该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。This article introduces the Lacmia,an innovative system for automatic summary generation for low-resource ethnic minority languages in China.Lacmia utilizes a unified generative framework to perform summarization tasks across different languages,overcoming the limitations of previous models for a single language.To address the insufficient performance in handling low-resource languages,the model integrates a language information embedding module within its architecture.Additionally,the introduction of a linguistic lexicon preference regularization in the loss function effectively reduces language confusion in multilingual summaries,thereby enhancing the accuracy and fluency of the generated abstracts.Comprehensive experiments demonstrate Lacmia's exceptional performance in summarization tasks for Tibetan and Uyghur,among other minority languages.according to ROUGE metrics,CINOScore and NLCR benchmarks.

关 键 词:生成式摘要 多语言预训练模型 低资源语言信息处理 多目标学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象