网页正文

作品数:46被引量:204H指数:10
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:胡光岷吴淑燕陈发君费高雷王劲林更多>>
相关机构:中国科学院北京奇虎科技有限公司国防科学技术大学电子科技大学更多>>
相关期刊:《计算机光盘软件与应用》《计算机技术与发展》《计算机工程与设计》《计算机与现代化》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划国家科技支撑计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于文本及HTML标签密度的网页正文提取被引量:1
《沈阳理工大学学报》2022年第4期14-19,共6页杨大为 王诗念 包立岩 要虹吏 刘畅 
辽宁省教育厅科学研究经费项目(LG201915);沈阳理工大学科研创新团队建设计划资助项目(SYLUTD202105)。
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的...
关键词:标签密度 HTML标签 网页 正文提取 
采用长短期记忆网络的深度学习方法进行网页正文提取被引量:5
《计算机应用》2021年第S01期20-24,共5页陈前华 胡嘉杰 江吉 吴豪 
国家重点研发计划项目(2018YFB1004600)。
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对...
关键词:文档对象模型 长短期记忆网络 预训练 深度学习 正文提取 
基于文本及符号密度的网页正文提取方法被引量:1
《电子设计工程》2019年第8期133-137,共5页洪鸿辉 丁世涛 黄傲 郭致远 
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密...
关键词:文本密度 算法 噪音 正文提取 
基于决策树的自适应网页正文抽取方法
《现代计算机》2019年第7期16-22,共7页吕容政 刘嘉勇 
为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差...
关键词:决策树分类算法 网页正文抽取 自适应网页正文抽取 DOM树解析 
网页正文提取方法在舆情监控中的应用探究
《数字技术与应用》2018年第9期231-231,233,共2页曹宇逢 
本文分析了网络文档内容页面分块的提取方法,同时引入了一个层次化关键数据挖掘思想,自顶向下将网页进行划分,这样就可以划分为多个物理模块,从简单的分块操作中获取一个准确的分块决策方法,进而进一步提高分块数据挖掘的准确度。
关键词:网络文档 分块 数据挖掘 
基于支持向量机的网页正文内容提取方法被引量:2
《计算机与现代化》2018年第9期21-26,31,共7页梁东 杨永全 魏志强 
海洋科学与技术国家实验室鳌山科技创新计划项目(2016ASKJ07;2016ASKJ07-08)
针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特...
关键词:支持向量机 正文抽取 HTML标签 降噪 机器学习 
基于标签样式和密度模型的网页正文自动抽取被引量:3
《情报科学》2018年第7期123-129,共7页廖建军 
河南省科技开放合作计划(152106000049);河南省科技攻关项目(162102210246)
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、...
关键词:正文抽取 标签样式 密度模型 网页分块 信息抽取 
基于改进内容分析算法的网页正文提取被引量:3
《计算机工程与设计》2018年第4期1017-1021,共5页陈婷婷 严华 臧军 
国家973重点基础研究发展计划基金项目(2013CB328903-2)
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过...
关键词:内容分析算法 Readability算法 数据丢失 节点相对距离 正文提取 
基于文本行特征的网页正文信息抽取方法研究
《软件导刊》2017年第10期15-18,共4页刘志杰 潘洋 
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文...
关键词:网页信息抽取 正文特征 网页去噪 正文抽取 
基于正文特征和网页结构的网页正文抽取方法被引量:2
《大气与环境光学学报》2017年第3期230-235,共6页胡露露 刘小勤 孙凯 
中国科学院战略性先导科技专项;XDB05040300~~
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后...
关键词:信息抽取 正文特征 网页结构 正文内容块 正则表达式 
检索报告 对象比较 聚类工具 使用帮助 返回顶部