基于增强语言表示模型的网络新闻长文本分类的研究

Long Text Classification for Web News Based on Enhanced Language Representation Model

作　　者：许楠桸柯圆圆胡晓莉 XU Nanxi;KE Yuanyuan;HU Xiaoli(School of Artificial Intelligence,Jianghan University,Wuhan 430056,Hubei,China)

机构地区：[1]江汉大学人工智能学院,湖北武汉430056

出　　处：《江汉大学学报（自然科学版）》2024年第4期37-44,共8页Journal of Jianghan University：Natural Science Edition

基　　金：江汉大学研究生科研创新基金项目(KYCXJJ202350)。

摘　　要：基于网络实时新闻内容数据,对一份具有时效的中文长文本数据集进行了新闻主题分类。利用年度关键词增强的分词方案提升分词精度,采用一种长文本压缩方法处理中文长文本的特殊数据,具体方法为选择关键句并利用TF-IDF算法提取长文本中关键词,再将组合的新文本进行词向量训练。最后,采用增强的语言表示模型进行新闻主题分类,并与6种机器学习和深度学习模型进行对比评估,评价指标为召回率、准确率、精度和F1分数等。实验结果表明:本文的模型可通过提取16个重要词对实时新闻长文本进行有效的分类。Based on the real-time news content data of the Internet,the author classified the news topic of a time-limited Chinese long text data set.The segmentation scheme of annual keyword enhancement was used to improve the segmentation accuracy.In addition,the author adopted a long text compression method to process the special data of Chinese long text.The specific method was to select key sentences,and extract the keywords in long text using the TF-IDF algorithm,then carry out word vector training on the combined new text.Finally,the author used an enhanced language representation model to classify news topics and compared them with six machine learning and deep learning models,including recall rate,accuracy,precision,and F1 score.The experimental results show that the model can effectively classify long text in real-time news by extracting 16 important words.

关键词：ERNIE模型预训练模型新闻分类长文本处理中文文本

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于增强语言表示模型的网络新闻长文本分类的研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于增强语言表示模型的网络新闻长文本分类的研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索