检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许惠惠 XU Huihui
机构地区:[1]山西药科职业学院素质教育教学研究部,山西太原030031
出 处:《信息技术与信息化》2025年第4期127-130,共4页Information Technology and Informatization
基 金:教育部职业院校信息化教学指导委员会2024年度全国高等职业院校信息技术课程教学改革研究项目课题“医药类高职院校‘信息技术’课程数字化项目实践教学建设研究”的阶段性成果(KT2024176);2021年度山西省高等学校哲学社会科学研究项目(思想政治教育专项)“新时代高职大学生群体画像构建研究”的阶段性成果(2021zsszsx207);2021年度山西省教育科学规划课题“基于神经网络模型的校企协同顶岗实习的评价研究”的阶段性成果(PJ-21045)。
摘 要:随着社交媒体、新闻平台和电商评论等领域中长文本数据的激增,传统模型如RNN和LSTM在建模长距离依赖方面存在局限,而Transformer在处理超长文本时计算开销巨大。为此,文章提出基于Mega(moving average equipped gated attention)模型的长文本分类与生成方法。通过引入指数移动平均(exponential moving average,EMA)和门控注意力机制,Mega模型增强了长距离依赖建模能力,并通过Mega-chunk机制提升计算效率。在文本分类任务中,Mega在AG News、IMDB和Amazon Reviews数据集上的表现优于RNN、LSTM、Tansformer和Longformer,尤其在长文本分类中展现了更高的准确率和计算效率。综上,Mega模型通过创新设计,在长文本处理任务中实现了性能与效率的平衡,适用于智能问答、新闻摘要等实际场景。
关 键 词:Mega模型 文本分类 长文本生成 门控注意力机制 指数移动平均
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49