检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:罗莎[1] LUO Sha(Beihai Vocational College,Beihai,Guangxi,536000)
机构地区:[1]北海职业学院,广西北海536000
出 处:《长江信息通信》2023年第11期133-135,共3页Changjiang Information & Communications
摘 要:为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。In order to meet the data recording and automatic extraction requirements of web pages,a web information extraction method based on DOM tree features for web information link pre classification and domain ontology is proposed.The DOM ob-ject node tree is set according to the HTML and XML web document structure,marking the page navigation node,leading node,and data feature node.The tree path is calculated using the label sequence from the DOM root node to the target node,Grouping based on the XPATH tree path of each webpage link,the DOM tree feature pre classification module completes the pre classifi-cation of website information links.Using SVM classifier and support vector machine SVM algorithm,the data record samples of the webpage are extracted for data information extraction and attribute feature extraction calculation,thereby extracting data texts and data record information that meet user needs.
关 键 词:WEB网页 DOM树特征 信息链接预分类 信息抽取方法
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249