网页信息抽取

作品数:36被引量:134H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:程学旗郭岩丁国栋张刚梅雪更多>>
相关机构:中国科学院华南理工大学中国科学技术大学中国科学院大学更多>>
相关期刊:《洛阳工业高等专科学校学报》《情报学报》《科技广场》《计算机工程》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金国家重点基础研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
网页信息抽取方法综述被引量:2
《网络安全技术与应用》2022年第3期12-13,共2页王立志 
随着互联网的快速发展,网络中的信息正在爆炸式地增长,网页作为网络中信息表达的方式之一,其结构也变得越来越复杂。而如何精确、高效地从网页中获取目标信息成为一个问题。本文总结现有的针对网页的信息抽取方法并加以分类,同时分析其...
关键词:信息抽取 WEB网页 DOM树 
一种网页信息抽取算法的研究与实现被引量:1
《青岛远洋船员职业学院学报》2021年第4期32-37,共6页王孟博 
随着互联网上的信息资源日益丰富,数量上难以计数,几乎每一个网页都包含与关键信息无关的噪音信息。如果想要收集自己需要的信息,仅通过手工方式存储到数据库或者文档中,需要消耗大量的时间和人力来整理以及存储并且存在一定的难度。基...
关键词:网页信息抽取 信息过滤 自动存储 
基于视觉特征的网页信息抽取方法研究被引量:5
《中文信息学报》2019年第5期103-112,共10页王宪发 郭岩 刘悦 俞晓明 程学旗 
国家重点研发计划(2017YFB0803302;2016YFB1000902);国家重点基础研究发展计划(973)(2014CB340405);国家重点基础研究发展计划(973)(2014CB340401);国家自然科学基金(61433014)
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站...
关键词:视觉特征 网络信息抽取 自动生成模板 
基于重复模式识别的网页信息抽取研究被引量:6
《情报科学》2019年第3期88-92,96,共6页李志义 沈之锐 
国家社科基金项目"基于表示学习的跨模态检索模型与特征抽取研究"(17BTQ062)
【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别的信息提取新方法,通过页面解...
关键词:重复模式 信息抽取 编辑距离 聚类 
基于XML描述的网页信息抽取技术研究
《益阳职业技术学院学报》2018年第2期76-78,共3页杨长虹 
湖南省教育厅科学研究项目《基于DOM结构的WEB内容变化检测技术》,编号:12C1244
如何对网页上海量的数据信息进行有效数据抽取,已经成了如今数据挖掘研究的一个热点。而XML(可扩展标记语言)这种面向语义语言的产生为解决这一热点问题提供了有利条件,即XML能够较好地为计算机所识别。
关键词:数据抽取 XML 半结构化数据 
基于文本行特征的网页正文信息抽取方法研究
《软件导刊》2017年第10期15-18,共4页刘志杰 潘洋 
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文...
关键词:网页信息抽取 正文特征 网页去噪 正文抽取 
基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用被引量:11
《计算机应用与软件》2017年第2期42-47,共6页双哲 孙蕾 
国家自然科学基金项目(61502170)
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射...
关键词:隐马尔可夫模型 最大熵模型 网页信息抽取 
基于视觉特征的主题型网页信息抽取
《赤峰学院学报(自然科学版)》2016年第6期23-25,共3页胡瑞 郭星 黄永聪 
安徽大学创新基金项目(yph100153)
互联网高速发展的多年积累,如今web已经成为我们每一个普通人日常的一部分.Web绝对是世界上最大的信息数据库.同时每一个web页面中也包含这个目标信息以外的各种广告链接.称之为噪声.如何有效的过滤噪声,提取想要的目标内容已经成为一...
关键词:VIPS NGFV 噪声过滤 DOM树 
基于文档对象模型与行块分布算法的网页信息抽取被引量:10
《情报理论与实践》2016年第4期133-137,共5页高庆宁 吴鹏 张晶晶 
国家自然科学基金项目"突发事件网络舆情演变过程中的人群仿真研究"(项目编号:71273132);国家自然科学基金项目"基于情感倾向性分析的网络舆情意见领袖识别与对策研究"(项目编号:71303111);中央高校基本科研业务专项资金项目(项目编号:30920140111006);江苏省"青蓝工程"〔2012〕39号项目;江苏高校优势学科建设工程资助的研究成果
[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容...
关键词:文档对象模型 算法 网页 信息抽取 
基于文本标签属性的网页信息抽取方法研究
《武汉职业技术学院学报》2016年第1期62-65,73,共5页沈娜 
伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在分析现有Web信息抽取技术现状及面临的挑战的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型。主要...
关键词:HTML DOM树 文本标签属性 WEB新闻 信息抽取 
检索报告 对象比较 聚类工具 使用帮助 返回顶部