检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张志强[1] 王伟钧[1] 张修军[1] 施达[1] ZHANG Zhiqiang;WANG Weijun;ZHANG Xiujun;SHI Da(School of Computer Science,Chengdu University,Chengdu 610106,China)
出 处:《成都大学学报(自然科学版)》2022年第2期151-156,共6页Journal of Chengdu University(Natural Science Edition)
基 金:四川省教育厅教育科研项目(SCJG21A123);成都市教育局教育科研项目(CY2020ZG05)。
摘 要:为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库.In order to retrieve and analyze news information,it is necessary to retrieve information from a large number of WORD documents which save the current news information.However,it is inefficient to retrieve WORD documents manually.In order to solve these problems,people need to extract useful information from WORD documents and build a news information database.In the later stage,data search and news data processing are carried out in the database.This paper proposes one data extraction algorithm for news WORD documents.The experimental results show that the algorithm can automatically read the content of the file from the batch news WORD documents,clean the useless data and extract the useful information data to build the database.
关 键 词:新闻类 WORD格式 数据抽取 清洗数据 批量文件自动读取 数据库
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7