大规模中文金融情感分析数据集自动构建  

Automatic Construction of Large-scale Chinese Financial Sentiment Analysis Dataset

在线阅读下载全文

作  者:李大宇 李旸 王素格[2] LI Dayu;LI Yang;WANG Suge(School of Finance,Shanxi University of Finance and Economics,Taiyuan 030006,China;School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China)

机构地区:[1]山西财经大学金融学院,山西太原030006 [2]山西大学计算机与信息技术学院,山西太原030006

出  处:《山西大学学报(自然科学版)》2024年第4期776-785,共10页Journal of Shanxi University(Natural Science Edition)

基  金:国家自然科学基金(62306169,62106130);山西省基础研究计划项目(202203021212499,20210302124084);山西省高等学校科技创新项目(2022L271)。

摘  要:金融文本中蕴含着丰富的情感信息,对于捕捉金融市场情绪波动、辅助投资者决策以及实施金融风险管理等都具有重要意义。然而,金融文本的情感标注需要大量领域专家知识,人工标注成本高昂。文章设计了一种基于表情符号远监督指导的自动标注策略,将金融文本中表情符号所表达的情感含义作为指导信息,自动标注文本的情感倾向,构建基础标注数据集;在此基础上,采用持续学习算法训练金融文本情感分类器,预测未标注数据,生成伪标签样本,进一步扩展标注数据集。最终,自动构建了一个包含923万余条股市评论的大规模中文金融情感分析数据集StockSentCN。在人工评估体系下,该数据集的Kappa一致性系数达到0.85,加权平均F1值达到90.34%,证明了所构建数据集的高质量与可靠性。数据集公开下载地址为:https://github.com/lidayuls/StockSentCN/。Rich sentiment information is embedded in financial texts,which is of great significance for capturing fluctuations in financial market sentiment,aiding investor with decision-making,and implementing financial risk management.However,sentiment annotation in financial texts requires extensive domain expertise,making manual annotation costly.This paper designs an automatic annotation strategy based on distant supervision guided by emojis,utilizing the sentiment connotations conveyed by emojis in financial texts to automatically label the sentiment polarity,thereby constructing a foundational labeled dataset.On this basis,the continual learning algorithm is employed to train a financial text sentiment classifier,predicting sentiment for unlabeled data and generating pseudo-labeled samples,and further augmenting the labeled dataset.Ultimately,a large-scale Chinese financial sentiment analysis dataset named StockSentCN,encompassing over 9.23 million stock comments,is automatically constructed.Under the human evaluation system,the Kappa consistency coefficient of the dataset reached 0.85,and the weighted average F1 score reached 90.34%,proving the high quality and reliability of the constructed dataset.The dataset is publicly available at:https://github.com/lidayuls/StockSentCN/.

关 键 词:中文金融情感分析 股市情感 数据集构建 表情符号 持续学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象