网页正文提取

作品数:15被引量:76H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:陈发君赵庸胡海斌张雪峰王燕华更多>>
相关机构:浙江大学四川大学中国科学院中国科学院研究生院更多>>
相关期刊:《计算机技术与发展》《计算机工程与设计》《计算机应用研究》《沈阳理工大学学报》更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划上海市教育委员会重点学科基金国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于文本及HTML标签密度的网页正文提取被引量:1
《沈阳理工大学学报》2022年第4期14-19,共6页杨大为 王诗念 包立岩 要虹吏 刘畅 
辽宁省教育厅科学研究经费项目(LG201915);沈阳理工大学科研创新团队建设计划资助项目(SYLUTD202105)。
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的...
关键词:标签密度 HTML标签 网页 正文提取 
采用长短期记忆网络的深度学习方法进行网页正文提取被引量:5
《计算机应用》2021年第S01期20-24,共5页陈前华 胡嘉杰 江吉 吴豪 
国家重点研发计划项目(2018YFB1004600)。
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对...
关键词:文档对象模型 长短期记忆网络 预训练 深度学习 正文提取 
基于改进内容分析算法的网页正文提取被引量:3
《计算机工程与设计》2018年第4期1017-1021,共5页陈婷婷 严华 臧军 
国家973重点基础研究发展计划基金项目(2013CB328903-2)
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过...
关键词:内容分析算法 Readability算法 数据丢失 节点相对距离 正文提取 
基于文字密度提取网页正文
《福建电脑》2017年第4期116-117,共2页石锦涛 
本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文字密度函数,最后引入一种分析机制将正文部分提取出来。本文提出的算法不依赖DO M树的建立、不依赖机器...
关键词:网页正文提取 文字密度函数 网页噪声 舆情分析 
基于布局相似性的网页正文内容提取研究被引量:10
《计算机应用研究》2015年第9期2581-2586,共6页杨柳青 李晓东 耿光刚 
国家自然科学基金面上项目(61375039);国家自然科学基金青年资助项目(61005029);中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402)
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性...
关键词:布局相似性 网页正文提取 信息检索 
基于Web数据挖掘的多因素科技专家信息提取方法被引量:1
《淮阴工学院学报》2013年第5期23-27,共5页朱全银 周培 尹永华 陈浮 刘金岭 
国家星火计划项目(2011GA690190);淮安市科技支撑项目(HAG2011052;HAG2011045;HASZ2012046;HASZ2012050);淮安市"533英才工程"项目资助
由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征...
关键词:科技专家 网页正文提取 特征词 最短距离匹配 
基于分块的网页内容提取算法的研究
《数字技术与应用》2012年第12期99-100,102,共3页杨丽萍 
目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一单一标签,对网页进行分块,这种方法针对与大多数利用标准化XHTML排版的网页是可行的,但是对于很多利用...
关键词:网页正文提取 分块 网页标题 网页 
基于正文相关度的维吾尔网页正文提取被引量:2
《计算机工程》2012年第21期153-156,160,共5页王瑞 周喜 李晓 
新疆维吾尔自治区高技术研究发展基金资助项目(201012112);新疆维吾尔自治区电子发展专项基金资助项目(XJDZZXZJ20109)
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点...
关键词:正文提取 正文相关度 信息安全 自然语言处理 正文密度 
基于信息量衰减幅度的网页正文提取被引量:1
《计算机工程与设计》2012年第7期2555-2560,共6页陈阳 陈兴蜀 吴麒 
国家973重点基础研究发展计划基金项目(2007CB311106);国家信息安全专项(242项目)基金项目((242)2009A82)
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅...
关键词:网页正文提取 标签树 主题区域子树 信息抽取 网页噪音 
逆序解析DOM树及网页正文信息提取被引量:15
《计算机科学》2011年第4期213-215,225,共4页张瑞雪 宋明秋 公衍磊 
国家自然科学基金项目(70671016)资助
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,...
关键词:DOM树 网页正文提取 结构相似性 逆序解析 
检索报告 对象比较 聚类工具 使用帮助 返回顶部