蒙古文日常问答语料数据集  被引量:2

A dataset of Mongolian daily question and answer corpus

在线阅读下载全文

作  者:特日格勒呼 王斯日古楞 韩永顺 爱丽雅 娜何雅 Terigelehu;WANG Siriguleng;HAN Yongshun;Ailiya;Naheya(Inner Mongolia Normal University,Hohhot 010022,P.R.China)

机构地区:[1]内蒙古师范大学,呼和浩特市010022

出  处:《中国科学数据(中英文网络版)》2022年第2期62-70,共9页China Scientific Data

基  金:内蒙古自治区科技计划项目(2021GG0139);国家自然科学基金资助项目(61762072)

摘  要:蒙古文自动问答研究发展缓慢,其中问答语料的稀缺是重要的原因之一。本研究通过对现有中文问答语料进行收集后通过规则筛选、汉蒙翻译、人工校正构建了5万对蒙古文问答语料。通过自动评价发现,该语料的问句和答复句具有较好的多样性,人工评价结果显示97%的语料符合日常问答逻辑。该语料范围主要是开放领域的日常对话,可应用在端到端的一问一答形式问答模型中,在蒙古文自动问答的研究中具有重要的使用价值。One of the important reasons of the slow pace of the Mongolian question and answer research lies in the scarcity of question and answer corpus.In this paper,we constructed a dataset containing 50,000 pairs of Mongolian question and answer corpus through rule selection,Chinese-Mongolian translation and manual correction after collecting the existing Chinese question answering corpus.The automatic evaluation shows that the corpus has a good diversity of question and answer sentences,and the manual evaluation results show that 97%of the corpus conforms to the daily question and answer logic.The entries in the corpus are mainly from daily conversations in various field.The corpus can used in the end-to-end question and answer model.It is of great values in the practice of Mongolian automatic question and answer research.

关 键 词:蒙古文 问答语料 语料库构建 语料校正 

分 类 号:H212[语言文字—少数民族语言] TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象