检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:袁公萍 谢红韬 舒珏淋 周维 YUAN Gongping;XIE Hongtao;SHU Juein;ZHOU Wei(CETC Big Data Research Institute Co.,Ltd.,Guiyang 550022,China)
机构地区:[1]中电科大数据研究院有限公司,贵州贵阳550022
出 处:《现代信息科技》2025年第8期106-110,116,共6页Modern Information Technology
基 金:国家自然科学基金-面向公共安全的场景智能感知与异常行为预警(U20B2069)。
摘 要:为了高效、准确地从网页中提取有价值的信息,文章提出了一种基于深度学习的网页内容解析方法。该方法旨在从复杂的超文本标记语言(HTML)中提取出正文信息。该方法将深度学习的特征提取能力、自然语言处理技术以及HTML文档中的布局信息相结合,构建了多层次神经网络模型,从而实现了对网页内容的识别。实验结果表明,与传统的基于文本密度的网页内容提取方法相比,该方法在准确率、自适应性和鲁棒性方面均表现出明显的优势。In order to extract valuable information from Web pages efficiently and accurately,this paper proposes a Web content parsing method based on Deep Learning.This method aims to extract text information from complex Hyper Text Markup Language(HTML).This method combines the feature extraction ability of Deep Learning,Natural Language Processing technology and layout information in HTML documents to construct a Multi-Layer Neural Network model,so as to realize the recognition of Web content.The experimental results show that compared with the traditional Web content extraction method based on text density,this method has obvious advantages in accuracy,adaptability and robustness.
分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP301.6[自动化与计算机技术—计算机科学与技术] TP311.1
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7