基于HTML5语义化标签的Web文本提取技术被引量：3

Extracting Web Text Content Techinque Based on HTML5's new Semantic Tags

作　　者：韦佳佳[1] WEI Jia-Jia(Department of Information Engineering, Anhui Techincal College of Mechanical and Electrical, Anhui Wuhu 241002, China)

机构地区：[1]安徽机电职业技术学院信息工程系,安徽芜湖241002

出　　处：《贵阳学院学报（自然科学版）》2017年第3期25-28,共4页Journal of Guiyang University：Natural Sciences

基　　金：2015院级青年教师发展支持计划教科研项目(项目编号:2015yjjy022)

摘　　要：本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。On the basis of deep analysis and reasearch on the data structure of the web page and page cleanup techniques. This paper puts forward a new web page cleanup techniques based on HTML 5 structural tags. This method can effectively distinguish the Web content and noise from the subject of page, so it has a good practicality value and useful prospect.

关键词：网页文本抽取 HTML5 语义化标记

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于HTML5语义化标签的Web文本提取技术被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于HTML5语义化标签的Web文本提取技术 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于HTML5语义化标签的Web文本提取技术被引量：3