网页信息提取

作品数:13被引量:70H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:张瑞雪李文立宋明秋王江王彦力更多>>
相关机构:大连理工大学北京大学北京邮电大学浙江工业大学更多>>
相关期刊:《西藏大学学报(社会科学版)》《情报学报》《中国科技信息》《兵工自动化》更多>>
相关基金:国家自然科学基金浙江省自然科学基金辽宁省自然科学基金国家科技支撑计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
NEMTF:基于多维度文本特征的新闻网页信息提取方法
《计算机应用研究》2022年第4期1043-1048,共6页翁彬月 秦永彬 黄瑞章 任丽娜 田悦霖 
国家自然科学基金通用联合基金重点资助项目(U1836205);国家自然科学基金重大研究计划资助项目(91746116);国家自然科学基金资助项目(62066007,62066008);贵州省科技重大专项计划资助项目(黔科合重大专项字[2017]3002);贵州省科学技术基金重点资助项目(黔科合基础[2020]1Z055)。
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过...
关键词:网页信息提取 卷积神经网络 WEB挖掘 文本特征 
基于可视块的多记录型复杂网页信息提取算法被引量:13
《计算机科学》2019年第10期63-70,共8页王卫红 梁朝凯 闵勇 
浙江省自然科学基金(LY17G030030,LGF18D010001,LGF18D010002)资助
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas...
关键词:WEB数据抽取 WEB挖掘 数据记录提取 网页数据提取 结构化信息 
一种新闻网页关键信息的提取算法被引量:6
《计算机应用》2016年第8期2082-2086,2120,共6页向菁菁 耿光刚 李晓东 
国家自然科学基金面上项目(61375039);中国科学院网络中心一三五重点项目(CNIC_PY_1402)~~
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法news Extractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文...
关键词:网页信息提取 新闻信息提取 网页去噪 
面向移动端适配的网页信息提取研究
《电信网技术》2015年第11期53-56,共4页马倩 沈奇威 
国家973计划项目(2013CB329102);国家自然科学基金资助项目(61471063;61372120;61271019;61101119;61121001);长江学者和创新团队发展计划项目(IRT1049);教育部科学技术研究重点(重大)项目(MCM20130310);北京高等学校青年英才计划项目(YETP0473)资助
随着宽带无线接入技术和移动终端技术的飞速发展,用户逐渐形成用手机访问互联网的习惯。但由于传统互联Web网站的界面和风格是为PC屏幕设计的,用户直接在移动端使用会带来极大的不便。因此,传统互联网站的所有者不得不花费更多的成本来...
关键词:移动互联网 网页信息提取 用户体验 
网络爬虫在网页信息提取中的应用研究被引量:11
《现代计算机》2012年第1期16-18,共3页金涛 
网络爬虫是为了实现网络资源下载功能的程序,是搜索引擎最重要的构件。考虑到网络上信息的种类繁多,研究一种基于网络爬虫的网页信息提取技术,并给出相关的设计方案,对设计方案进行验证,结果表明设计的可行性。
关键词:网络 爬虫 信息提取 网页 
基于HTML树的网页结构相似度研究被引量:2
《情报学报》2011年第2期160-165,共6页宋明秋 张瑞雪 
国家自然科学基金
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似...
关键词:HTML网页 网页信息提取 结构相似度 Based Web 结构相似性 匹配规则 度量模型 计算方法 网页信息块 PYTHON语言 自由 信息比较 数据表 实验 结构特征 传统方法 半结构化 系统性 适用性 
基于HTML树和模板的文献信息提取方法研究被引量:7
《计算机应用研究》2010年第12期4615-4617,共3页李文立 王乐超 宋春雷 
国家自然科学基金资助项目(70572099);辽宁省自然科学基金资助项目(1050349)
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将...
关键词:网页信息提取 文档对象模型树 模板 文献信息搜集 
基于HTML Parser的网页信息提取技术研究被引量:3
《西藏大学学报(社会科学版)》2010年第3期41-44,共4页珠杰 罗潘 
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和...
关键词:搜索引擎 网页信息提取 HTML PARSER 
基于结构语义熵的网上商品信息提取系统被引量:2
《计算机应用与软件》2010年第9期49-52,84,共5页吴晓彦 郑骁庆 顾轶灵 沈元一 
国家科技支撑计划项目(2006bah02a05-06)
目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据...
关键词:网页信息提取 结构语义熵 信息聚集度分析 
网页正文信息抽取新方法被引量:20
《大连理工大学学报》2009年第4期594-597,共4页宋明秋 张瑞雪 吴新涛 李文立 
国家自然科学基金资助项目(70671016)
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结...
关键词:包装器 HTML树 网页信息提取 
检索报告 对象比较 聚类工具 使用帮助 返回顶部