检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]沈阳建筑大学计算机科学与工程学院,辽宁 沈阳
出 处:《数据挖掘》2025年第1期82-93,共12页Hans Journal of Data Mining
摘 要:短剧随着时代发展逐渐崛起,成为当今国内外新潮的娱乐载体。本文爬取腾讯短剧品牌十分剧场的短剧用户评价,对该不平衡样本数据进行情感分析,比较多种模型与模型组合的效率与效果。1) 使用Word2vec的连续词袋模型将预处理后的文本转为词向量,构建LSTM/BILSTM模型,两者无效果差别,LSTM所用时间最短;2) 构建TextCNN + LSTM/BILSTM模型,使用TextCNN获取向量特征,通过LSTM/BILSTM学习情感规律,稀少数据的F1-Score提升约10%;3) 构建TextCNN + LSTM + Muti_Head_Attention模型,添加多头注意力机制把握字与字之间的多重联系,耗时增加一倍,稀少数据的F1-Score上限再次提升1%;4) 使用随机删除增强数据会以降低20%的精准率的代价提高10%的召回率;5) 在第3点的基础上在卷积层中添加残差连接,稀少数据的F1-Score上限提高2%;6) 使用Bert/Roberta的分词器和模型取代Word2vec与传统RNN,得到的结果对比第5点,提升约为9%/12%,泛化性更强,时间和硬件成本大幅提升,但添加TextCNN、LSTM与多头注意力后,效果反而出现下降。As Micro-Dramas grow in popularity worldwide, this article evaluates user reviews from Tencent’s “Shifen Theater”, analyzing imbalanced data sentiment and comparing various models and combinations. 1) Word2Vec’s bag-of-words model turns preprocessed text into vectors, building LSTM/BiLSTM models—both perform poorly, with LSTM being the fastest;2) The TextCNN + LSTM/ BiLSTM model uses TextCNN for vector features and LSTM/BiLSTM for sentiment learning, boosting the F1-Score for rare data by about 10%;3) Adding Multi-Head Attention to TextCNN + LSTM/BiLSTM captures intricate character relationships, doubling the runtime and increasing the F1-Score by 1%;4) Random deletion enhances data but sacrifices 20% precision for 10% better recall;5) Add residual connections to the convolution layers in model 3, improving the F1-Score by 2% on sparse data;6) Replacing Word2Vec and traditional RNNs wi
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28