检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李大宇 李旸 王素格[2] LI Dayu;LI Yang;WANG Suge(School of Finance,Shanxi University of Finance and Economics,Taiyuan 030006,China;School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China)
机构地区:[1]山西财经大学金融学院,山西太原030006 [2]山西大学计算机与信息技术学院,山西太原030006
出 处:《山西大学学报(自然科学版)》2024年第4期776-785,共10页Journal of Shanxi University(Natural Science Edition)
基 金:国家自然科学基金(62306169,62106130);山西省基础研究计划项目(202203021212499,20210302124084);山西省高等学校科技创新项目(2022L271)。
摘 要:金融文本中蕴含着丰富的情感信息,对于捕捉金融市场情绪波动、辅助投资者决策以及实施金融风险管理等都具有重要意义。然而,金融文本的情感标注需要大量领域专家知识,人工标注成本高昂。文章设计了一种基于表情符号远监督指导的自动标注策略,将金融文本中表情符号所表达的情感含义作为指导信息,自动标注文本的情感倾向,构建基础标注数据集;在此基础上,采用持续学习算法训练金融文本情感分类器,预测未标注数据,生成伪标签样本,进一步扩展标注数据集。最终,自动构建了一个包含923万余条股市评论的大规模中文金融情感分析数据集StockSentCN。在人工评估体系下,该数据集的Kappa一致性系数达到0.85,加权平均F1值达到90.34%,证明了所构建数据集的高质量与可靠性。数据集公开下载地址为:https://github.com/lidayuls/StockSentCN/。Rich sentiment information is embedded in financial texts,which is of great significance for capturing fluctuations in financial market sentiment,aiding investor with decision-making,and implementing financial risk management.However,sentiment annotation in financial texts requires extensive domain expertise,making manual annotation costly.This paper designs an automatic annotation strategy based on distant supervision guided by emojis,utilizing the sentiment connotations conveyed by emojis in financial texts to automatically label the sentiment polarity,thereby constructing a foundational labeled dataset.On this basis,the continual learning algorithm is employed to train a financial text sentiment classifier,predicting sentiment for unlabeled data and generating pseudo-labeled samples,and further augmenting the labeled dataset.Ultimately,a large-scale Chinese financial sentiment analysis dataset named StockSentCN,encompassing over 9.23 million stock comments,is automatically constructed.Under the human evaluation system,the Kappa consistency coefficient of the dataset reached 0.85,and the weighted average F1 score reached 90.34%,proving the high quality and reliability of the constructed dataset.The dataset is publicly available at:https://github.com/lidayuls/StockSentCN/.
关 键 词:中文金融情感分析 股市情感 数据集构建 表情符号 持续学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38