检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:温嘉宝 杨敏 WEN Jiabao;YANG Min(Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China;University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]中国科学院深圳先进技术研究院,深圳518055 [2]中国科学院大学,北京100049
出 处:《集成技术》2024年第1期62-71,共10页Journal of Integration Technology
基 金:深圳市基础研究重点项目(JCYJ20210324115614039)。
摘 要:裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于Transformer编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在2020年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上均有显著提升。The purpose of automatic judgment document summarization is to allow computers to automatically select,extract,and compress important information from legal texts so as to reduce workload of practitioners.Currently,most summarization algorithms based on pre-trained language models have limitations on the length of the input text,so they cannot effectively summarize long texts.In this thesis,an innovative extractive summarization algorithm is introduced,which uses a pre-trained language model to generate sentence vectors.Based on the Transformer encoder structure,the summarization task can be completed by fused information including sentence vectors,position and length of sentences.Experimental results showed that,the algorithm can effectively handle the task of summarizing long texts.In addition,the model was tested on the 2020 CAIL(challenge of AI in law)summarization dataset,and results showed that compared to the baseline model,the proposed model showed significant improvement in the ROUGE-1,ROUGE-2,and ROUGE-L metrics.
关 键 词:抽取式摘要模型 法律裁判文书 文本自动摘要 深度神经网络
分 类 号:TP399[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31