检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄启洲 HUANG Qizhou(Unicom Digital Technology Co.,Ltd.,Beijing 100032)
出 处:《软件》2024年第7期153-155,共3页Software
摘 要:针对当前研究在书籍级长文本可读性评估方面的不足,本文提出了一种新颖的PTDE-CAC模型。该模型将书籍分割为固定片段,利用无监督聚类获取难度感知片段,对预训练模型进行再训练,使其学习难度知识,将长文本表示为多个不同难度级别的向量。本文构建了大数据、计算机科普教材分级数据集,实验证明PTDE-CAC模型在可读性评估中表现优异,优于传统方法和现有预训练模型。本工作为书籍级可读性评估提供了新思路,也为相关教材编写选择提供了参考。To address the inadequacy in book-level long text readability assessment,we propose a novel PTDE-CAC model.It divides books into fixed segments,obtains difficulty-aware segments via unsupervised clustering,and retrains a pre-trained model to learn difficulty knowledge,representing long texts as multiple vectors with different difficulty levels.This article construct a graded dataset of big data and computer science popular textbooks.Experiments prove PTDE-CAC outperforms traditional methods and existing pre-trained models in readability assessment.This work provides a new approach for book-level readability assessment and a reference for relevant textbook compilation and selection.
关 键 词:书籍级长文本 可读性评估 PTDE-CAC模型 难度感知预训练 多视角表示 大数据 计算机科普教材分级数据集
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15