检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李春豹 LI Chunbao
机构地区:[1]中国电子科技集团公司第十研究所,四川成都610036
出 处:《信息技术与信息化》2023年第6期110-113,共4页Information Technology and Informatization
摘 要:机器阅读理解是自然语言处理领域中基础且重要的研究课题,其目标是让机器具备从文本数据中获取知识或回答给定问题的能力。近年来,研究人员已经提出了多种面向单文档的机器阅读理解模型,并取得了一定的效果。然而,在实际应用场景中,通常是先提出问题,然后再根据大规模非结构化文本数据对问题进行作答;此外,针对同一答案,不同用户提问时的问题描述也不相同,这对模型的泛化能力提出了较高的要求。针对上述问题,提出了一种面向多文档的机器阅读理解模型。模型遵循先检索后阅读的思想。在检索阶段,提出了一种基于规则和最长公共子串的排序方法,从文档库中选出前N个最相关的文档;在阅读阶段,基于Bert预训练模型提取的特征,结合文本语义特征和注意力机制提高问题核心词在问题特征、问题-篇章交互特征中的权重,采用指针网络预测每篇文档中的答案跨度,并综合考虑文档检索得分和预测答案得分,给出评分最高的答案。在中文阅读理解数据集CMRC上,该模型达到76.29%的EM分数和89.77%的F1分数,获得较好实验效果。
关 键 词:机器阅读理解 最长公共子串 Bert预训练模型 语义相似度特征 注意力机制
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.170