面向海量地质文档的表格信息快速抽取方法研究  被引量:3

Study on the rapid extraction of table information for mass geological documents

在线阅读下载全文

作  者:李杨 朱月琴[2,3] 李朝奎 肖克炎[4] 范建福[4] 李秋平[5] 

机构地区:[1]湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南湘潭411201 [2]国土资源部地质信息技术重点实验室,北京100037 [3]中国地质调查局发展研究中心,北京100037 [4]中国地质科学院矿产资源研究所,北京100037 [5]西北大学城市与环境学院,陕西西安710127

出  处:《中国矿业》2017年第9期98-103,共6页China Mining Magazine

基  金:国土资源部公益性行业科研专项项目资助(编号:201511079)

摘  要:以Hadoop分布式系统架构中最核心的HDFS和MapReduce为基础,提出了一种面向海量地质文档的表格信息快速抽取的方法。为了提高地质文档表格信息抽取速度,首先利用关键词查找文档在HDFS中存储的根目录,其次利用Hadoop分布式集群中Map函数和Reduce函数实现单元格信息的抽取和信息还原显示,最后对重庆市矿产资源潜力评价成果数据中WORD文档进行表格快速抽取实验。实验证明,本文提出的地质文档表格信息快速抽取方法可以大幅缩减传统单机串行地质文档表格信息抽取所需的时间。Based on the most core HDFS and MapReduce in Hadoop distributed system architecture,a rapid extraction method of table information for massive geological documents is proposed.In order to improve the extraction speed of geological information document form,first of all,using the key WORDs to find documents stored in the HDFS root directory,then,using the Hadoop distributed cluster Map function and a Reduce function reduction cell information extraction and information,according to the mineral resources potential evaluation result data in Chongqing in WORD document form rapid extraction experiments.It is proved that the method of rapid extraction of geological document table information in this paper can greatly reduce the time needed to extract the information of the traditional single-machine serial geological document form.

关 键 词:地质文档 表格信息 快速抽取 

分 类 号:P208[天文地球—地图制图学与地理信息工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象