一种面向证券信息披露长文档的表格分类方法  被引量:2

An Approach for Table Classification in Long Financlal Disclosures

在线阅读下载全文

作  者:罗小清 贾网 李佳静[2,3] 闫宏飞 孟涛 冯科 LUO Xiaoqing;JIA Wang;LI Jiajing;YAN Hongfei;MENG Tao;FENG Ke(National Engineering Research Center for Software Engineering,Peking University,Beijing 100080,China;School of Mechanical Electrical and Information Engineering,China University of Mining and Technology(Beijing),Beijing 100083,China;Wangganzhicha Information Technology Inc,Nanjing,Jiangsu 210000,China;School of Computer Science,Peking University,Beijing 100871,China;School of Economics,Peking University,Beijing 100871,China)

机构地区:[1]北京大学软件工程国家工程研究中心,北京100080 [2]中国矿业大学(北京)机电与信息工程学院,北京100083 [3]南京网感至察信息科技有限公司,江苏南京210000 [4]北京大学计算机学院,北京100871 [5]北京大学经济学院,北京100871

出  处:《中文信息学报》2023年第5期70-79,共10页Journal of Chinese Information Processing

摘  要:针对现有方法在获取证券信息披露长文档中的表格时准确度低的问题,该文提出了一种基于上下文特征融合的表格分类方法。首先对证券信息披露长文档中的表格和其上下文进行抽取和预处理,建立了表格分类的数据集;然后针对表格信息和上下文信息的不同特点,使用不同的多尺度卷积神经网络进行特征提取;进一步设计了一种针对表格分类更有效的特征融合方式。在构建的表格分类数据集上的分类结果相较于基线模型Micro-F_(1)值提升了0.37%,Macro-F_(1)值提升了1.24%,实验结果表明,该文提出的表格分类方法可较好地改善待分析表格获取效果。To address the challenging issue of table acquisition in long financlal disclosures,this paper proposes a context feature fusion approach.A table classification dataset is first constructed by preprocessing these long financlal disclosures and extracting tables with their contexts in the document.Then different multiscale Convolution Neural Networks(CNNs)are used for feature extraction according to the characteristics of table information and context information.Comparded with the baseline experiments,the Micro-F_(1) and Macro-F_(1) scores have improved by over 0.37%and 1.24%respectively.

关 键 词:证券信息披露长文档 表格分类 卷积神经网络 特征融合 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象