基于神经网络模型的汉语文本难度分级  被引量:1

Chinese Readability Assessment Based on Deep Neural Networks

在线阅读下载全文

作  者:李文彪 吴云芳 LI Wenbiao;WU Yunfang(School of Software and Microelectronics,Peking University,Beijing 102600,China;School of Computer Science,Peking University,Beijing 100871,China)

机构地区:[1]北京大学软件与微电子学院,北京102600 [2]北京大学计算机学院,北京100871

出  处:《中文信息学报》2023年第2期158-168,共11页Journal of Chinese Information Processing

基  金:国家自然科学基金(62076008,61936012)。

摘  要:文本难度分级是自然语言处理在教育领域的一个基础性研究课题,用于自动判定一篇文章的阅读难度。该文基于深度神经网络模型对汉语文本阅读难度进行了探索,提出了一种CNN+LSTM的难度分级模型,并结合分级语料的特点采用了变长卷积层和块结构。在教材测试集和人工构建的测试集上进行了详细的实验分析,该文的神经网络模型超越了传统机器学习方法和主流神经网络方法,在根据学段划分的5级数据上分级系统的正确率达到了75.4%。Readability assessment is to automatically determine the reading difficulty of a given document.Focusing on Chinese readability assessment,this paper proposes a CNN+LSTM difficulty classification model with the variable-length convolutional layer and block structure.Extensive experiments on school textbooks and a manual-constructed test set show that the proposed method achieves 75.4%accuracy on 5-level difficulty prediction,which is superior to the existing models.

关 键 词:可读性评估 特征提取 深度学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象