检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:闫国航 郭亚鑫 谭红叶[1,2] 张虎[1] YAN Guohang;GUO Yaxin;TAN Hongye;ZHANG Hu(School of Computer Science and Technology,Shanxi University,Taiyuan,Shanxi 030006,China;Key Laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan,Shanxi 030006,China)
机构地区:[1]山西大学计算机与信息技术学院,山西太原030006 [2]山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006
出 处:《中文信息学报》2025年第2期52-62,共11页Journal of Chinese Information Processing
基 金:新一代人工智能国家科技重大专项(2020AAA0106102);国家自然科学基金(62076155)。
摘 要:故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现于原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,该文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程:先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,该文对多个代表性的LLMs进行了评估,发现LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,该文使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效评估LLMs。Story comprehension is an important task in NLP.In recent years,researchers have witnessed extensive evaluation and analysis of Large Language Models(LLMs)comprehension abilities,yet leaving the comprehension of narratives less addressed.We construct CRMUS,a new fable story comprehension dataset.Based on the cognitive process of human story comprehension,we design two tasks to evaluate the model s ability in commonsense reasoning and allegorical understanding.We compare several popular LLMs on CSMUS and reveal that the LLMs can understand the commonsense of the story and reason effectively while there are still much room for improvement in understanding the morals of the story.We also access the quality the dataset via item response theory(IRT),showing that the dataset is of high quality.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222