基于多任务联合训练的法律文本机器阅读理解模型  被引量:6

A Reading Comprehension Model for Judical Texts Based on Multi Task Joint Training

在线阅读下载全文

作  者:李芳芳[1,2] 任星凯[1] 毛星亮 林中尧 刘熙尧 LI Fangfang;REN Xingkai;MAO Xingliang;LIN Zhongyao;LIU Xiyao(School of Computer Science and Engineering,Central South University,Changsha,Hunan 410083,China;“MobileHealth”Ministry of Education-China MobileJoint Laboratory,Changsha,Hunan 410028,China;Institute of Big Data and Internet Innovation,Hunan University of Technology and Business,Changsha,Hunan 410205,China)

机构地区:[1]中南大学计算机学院,湖南长沙410083 [2]移动医疗教育部-中国移动联合重点实验室,湖南长沙410028 [3]湖南工商大学大数据与互联网创新研究院,湖南长沙410205

出  处:《中文信息学报》2021年第7期109-117,125,共10页Journal of Chinese Information Processing

基  金:国家重点研发计划(2020YFC0832700);国家自然科学基金(71790615);国防科技重点实验室基金(6142101190302);湖南省自然科学面上基金(2020JJ4746);湖南省长沙市自然科学基金(Kq2014134)。

摘  要:随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块:文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块。此外,该文提出了一种基于TF-IDF的"问题-文章句子"相似度匹配的数据增强方法。该方法对中国法研杯2019的训练集进行重新标注,实现数据增强。通过以上方法,最终该集成模型在2020中国法研杯机器阅读理解任务中联合F1值为74.49,取得全国第一名。The combination of artificial intelligence with law has become a hot research issue. Focused on the machine reading comprehension task of China AI Law Challenge 2020(CAIL2020), this paper proposes a multi-task joint training of four sub-modules: word embedding module, answer extraction module, answer classification module and supporting facts discrimination module. This paper proposes a data augmentation method based on TF-IDF ‘question-context’ similarity matching, which re-labels the training set of CAIL2019 for data augmentation. After performing CAIL2020 machine reading comprehension task, the F1 value of this model achieves 74.49 as the first place in this task.

关 键 词:中国法研杯 机器阅读理解 多任务联合训练 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象