一种新闻类WORD格式文件数据抽取算法研究  

Data Extraction Algorithm for WORD Format Files about Describing News Information

在线阅读下载全文

作  者:张志强[1] 王伟钧[1] 张修军[1] 施达[1] ZHANG Zhiqiang;WANG Weijun;ZHANG Xiujun;SHI Da(School of Computer Science,Chengdu University,Chengdu 610106,China)

机构地区:[1]成都大学计算机学院,四川成都610106

出  处:《成都大学学报(自然科学版)》2022年第2期151-156,共6页Journal of Chengdu University(Natural Science Edition)

基  金:四川省教育厅教育科研项目(SCJG21A123);成都市教育局教育科研项目(CY2020ZG05)。

摘  要:为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库.In order to retrieve and analyze news information,it is necessary to retrieve information from a large number of WORD documents which save the current news information.However,it is inefficient to retrieve WORD documents manually.In order to solve these problems,people need to extract useful information from WORD documents and build a news information database.In the later stage,data search and news data processing are carried out in the database.This paper proposes one data extraction algorithm for news WORD documents.The experimental results show that the algorithm can automatically read the content of the file from the batch news WORD documents,clean the useless data and extract the useful information data to build the database.

关 键 词:新闻类 WORD格式 数据抽取 清洗数据 批量文件自动读取 数据库 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象