基于深度学习的网页内容解析方法  

Web Content Parsing Method Based on Deep Learning

在线阅读下载全文

作  者:袁公萍 谢红韬 舒珏淋 周维 YUAN Gongping;XIE Hongtao;SHU Juein;ZHOU Wei(CETC Big Data Research Institute Co.,Ltd.,Guiyang 550022,China)

机构地区:[1]中电科大数据研究院有限公司,贵州贵阳550022

出  处:《现代信息科技》2025年第8期106-110,116,共6页Modern Information Technology

基  金:国家自然科学基金-面向公共安全的场景智能感知与异常行为预警(U20B2069)。

摘  要:为了高效、准确地从网页中提取有价值的信息,文章提出了一种基于深度学习的网页内容解析方法。该方法旨在从复杂的超文本标记语言(HTML)中提取出正文信息。该方法将深度学习的特征提取能力、自然语言处理技术以及HTML文档中的布局信息相结合,构建了多层次神经网络模型,从而实现了对网页内容的识别。实验结果表明,与传统的基于文本密度的网页内容提取方法相比,该方法在准确率、自适应性和鲁棒性方面均表现出明显的优势。In order to extract valuable information from Web pages efficiently and accurately,this paper proposes a Web content parsing method based on Deep Learning.This method aims to extract text information from complex Hyper Text Markup Language(HTML).This method combines the feature extraction ability of Deep Learning,Natural Language Processing technology and layout information in HTML documents to construct a Multi-Layer Neural Network model,so as to realize the recognition of Web content.The experimental results show that compared with the traditional Web content extraction method based on text density,this method has obvious advantages in accuracy,adaptability and robustness.

关 键 词:网页内容解析 深度学习 神经网络 自适应性 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP301.6[自动化与计算机技术—计算机科学与技术] TP311.1

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象