基于Mega模型的文本分类与长文本生成研究  

在线阅读下载全文

作  者:许惠惠 XU Huihui

机构地区:[1]山西药科职业学院素质教育教学研究部,山西太原030031

出  处:《信息技术与信息化》2025年第4期127-130,共4页Information Technology and Informatization

基  金:教育部职业院校信息化教学指导委员会2024年度全国高等职业院校信息技术课程教学改革研究项目课题“医药类高职院校‘信息技术’课程数字化项目实践教学建设研究”的阶段性成果(KT2024176);2021年度山西省高等学校哲学社会科学研究项目(思想政治教育专项)“新时代高职大学生群体画像构建研究”的阶段性成果(2021zsszsx207);2021年度山西省教育科学规划课题“基于神经网络模型的校企协同顶岗实习的评价研究”的阶段性成果(PJ-21045)。

摘  要:随着社交媒体、新闻平台和电商评论等领域中长文本数据的激增,传统模型如RNN和LSTM在建模长距离依赖方面存在局限,而Transformer在处理超长文本时计算开销巨大。为此,文章提出基于Mega(moving average equipped gated attention)模型的长文本分类与生成方法。通过引入指数移动平均(exponential moving average,EMA)和门控注意力机制,Mega模型增强了长距离依赖建模能力,并通过Mega-chunk机制提升计算效率。在文本分类任务中,Mega在AG News、IMDB和Amazon Reviews数据集上的表现优于RNN、LSTM、Tansformer和Longformer,尤其在长文本分类中展现了更高的准确率和计算效率。综上,Mega模型通过创新设计,在长文本处理任务中实现了性能与效率的平衡,适用于智能问答、新闻摘要等实际场景。

关 键 词:Mega模型 文本分类 长文本生成 门控注意力机制 指数移动平均 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象