基于Web网页的DOM树链接预分类、信息抽取方法研究  

Research on DOM Tree Link Preclassification and Information Extraction Methods Based on Web Pages

在线阅读下载全文

作  者:罗莎[1] LUO Sha(Beihai Vocational College,Beihai,Guangxi,536000)

机构地区:[1]北海职业学院,广西北海536000

出  处:《长江信息通信》2023年第11期133-135,共3页Changjiang Information & Communications

摘  要:为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。In order to meet the data recording and automatic extraction requirements of web pages,a web information extraction method based on DOM tree features for web information link pre classification and domain ontology is proposed.The DOM ob-ject node tree is set according to the HTML and XML web document structure,marking the page navigation node,leading node,and data feature node.The tree path is calculated using the label sequence from the DOM root node to the target node,Grouping based on the XPATH tree path of each webpage link,the DOM tree feature pre classification module completes the pre classifi-cation of website information links.Using SVM classifier and support vector machine SVM algorithm,the data record samples of the webpage are extracted for data information extraction and attribute feature extraction calculation,thereby extracting data texts and data record information that meet user needs.

关 键 词:WEB网页 DOM树特征 信息链接预分类 信息抽取方法 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象