检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:白钰洁 BAI Yujie(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163000)
机构地区:[1]东北石油大学计算机与信息技术学院
出 处:《微型电脑应用》2019年第11期141-142,146,共3页Microcomputer Applications
摘 要:为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。In order to quickly obtain the implied useful information from Web pages,a Web information extraction method based on the start delimiter is proposed.This method firstly uses Web crawler to obtain some sample Web pages.It then preprocesses the sample Web pages.The start delimiter is obtained through the preprocessed sample Web page of the recurrent neural network training.Finally,lxml parsing library is used to locate and extract the target Web page information.By doing so,semi-structured Web pages are automatically organized into structured knowledge for people to search and reuse.After one extraction experiment on three MOOC Websites,it has been proved that this method can extract useful information and be portable.
关 键 词:WEB信息抽取 循环神经网络 开始定界符 lxml
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.148.219.214