基于HTML5语义化标签的Web文本提取技术  被引量:3

Extracting Web Text Content Techinque Based on HTML5's new Semantic Tags

在线阅读下载全文

作  者:韦佳佳[1] WEI Jia-Jia(Department of Information Engineering, Anhui Techincal College of Mechanical and Electrical, Anhui Wuhu 241002, China)

机构地区:[1]安徽机电职业技术学院信息工程系,安徽芜湖241002

出  处:《贵阳学院学报(自然科学版)》2017年第3期25-28,共4页Journal of Guiyang University:Natural Sciences

基  金:2015院级青年教师发展支持计划教科研项目(项目编号:2015yjjy022)

摘  要:本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。On the basis of deep analysis and reasearch on the data structure of the web page and page cleanup techniques. This paper puts forward a new web page cleanup techniques based on HTML 5 structural tags. This method can effectively distinguish the Web content and noise from the subject of page, so it has a good practicality value and useful prospect.

关 键 词:网页 文本抽取 HTML5 语义化标记 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象