基于领域本体的网络财务报告文本信息抽取研究  被引量:1

A Research on Text Information Extraction from Annual Report Based on Domain Ontology

在线阅读下载全文

作  者:梁倬骞[1,2] 王东[3] 朱慧[3] 潘定[1] Liang Zhuo-qian;Wang Dong;Zhu Hui;Pan Ding(School of Management, Jinan University, Guangzhou 510632, China;School of Business Administration, Guangzhou 510006, China;School of Information, Jinan University, Guangzhou 510632, China)

机构地区:[1]暨南大学管理学院,广东广州510632 [2]暨南大学信息学院,广东广州510632 [3]广州大学工商管理学院,广东广州510006

出  处:《广东工业大学学报》2017年第3期89-95,共7页Journal of Guangdong University of Technology

基  金:国家自然科学基金资助项目(71171097;71671048);中央高校基本科研业务费专项资金资助项目(15JNLH005);广东省自然科学基金资助项目(2015A030310506)

摘  要:企业财务报告中存在大量蕴含着许多重要财务信息的非结构化文本信息.这类信息难以被计算机识别、分析和处理,也难以通过数据库技术进行管理.本文结合本体相关理论和自然语言处理(Natural Language Processing,NLP)技术,从词语属性描述、词语关系组织和相关知识链接3个维度构建财务报告领域本体,利用NLP工具对中文财务报告中的文本信息进行处理,将非结构化文本信息转化为结构化信息并使用XBRL表示,在一定程度上实现了文本信息的数据库存储与计算机分析处理.Significant financial information can be retrieved from the vast amount of textual data provided in Chinese business accounting reports(annual reports).Nevertheless,due to the unstructured nature,this textual information usually is difficult to be obtained and analyzed via traditional computer and database techniques.To address this issue,a set of unified domain-specific ontology is presented,combined with Chinese Natural language processing(NLP),which transforms accounting reports in unstructured text into a structured XBRL-based form via three different dimensions,namely word attribute description,word relation organization,and related knowledge links respectively.

关 键 词:可扩展商业报告语言 领域本体 财务报告 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象