检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谭可人 兰韵诗 张杨 丁安琪 TAN Keren;LAN Yunshi;ZHANG Yang;DING Anqi(School of Data Science and Engineering,East China Normal University,Shanghai 200333,China;School of International Chinese Studies,East China Normal University,Shanghai 200333,China)
机构地区:[1]华东师范大学数据科学与工程学院,上海200333 [2]华东师范大学国际汉语文化学院,上海200333
出 处:《中文信息学报》2024年第5期41-52,共12页Journal of Chinese Information Processing
基 金:国家自然科学基金(62137001);教育部语合中心重点项目(21YH21B);教学资源建设重点项目(YHJC22ZD067);华东师范大学新中文教育专项课题(2022ECNU-WHCCYJ-29,2022ECNU-WHCCYJ-31)。
摘 要:中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。The goal of Chinese text readability grading task is to classify Chinese texts into the appropriate difficulty levels for readers.Recent studies have shown that linguistic features and deep semantic features are complementary in characterizing the difficulty of text.However,existing work only performed shallow fusion of these two types of features,and deep,multi-level fusion has not been considered.Therefore,this paper develops a multi-level linguistic feature fusion strategy based on the traditional text readability grading model on BERT.Specifically,considering the interaction of different linguistic features and network layer structures,this paper fused the linguistic features of characters,words and grammar in the embedding layer as well as the self-attention layer.The experimental results show that the proposed method outperforms all baseline models and by 94.2%accuracy.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7