正文提取

作品数:35被引量:123H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:刘林浩刘锐胡宏伟张杰陈发君更多>>
相关机构:北京邮电大学哈尔滨工业大学浙江大学重庆大学更多>>
相关期刊:《科技风》《广东工业大学学报》《福建电脑》《计算机应用与软件》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划上海市教育委员会重点学科基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于文本及HTML标签密度的网页正文提取被引量:1
《沈阳理工大学学报》2022年第4期14-19,共6页杨大为 王诗念 包立岩 要虹吏 刘畅 
辽宁省教育厅科学研究经费项目(LG201915);沈阳理工大学科研创新团队建设计划资助项目(SYLUTD202105)。
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的...
关键词:标签密度 HTML标签 网页 正文提取 
采用长短期记忆网络的深度学习方法进行网页正文提取被引量:5
《计算机应用》2021年第S01期20-24,共5页陈前华 胡嘉杰 江吉 吴豪 
国家重点研发计划项目(2018YFB1004600)。
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对...
关键词:文档对象模型 长短期记忆网络 预训练 深度学习 正文提取 
基于SVM与DOM重心半径模型的Web正文提取被引量:3
《计算机工程》2019年第6期206-210,共5页易国洪 代瑜 冯智莉 黎慧源 
国家自然科学基金青年项目“基于能力集成动态规划的自适应软件需求的群体决策问题研究”(61502355)
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并...
关键词:支持向量机 特征向量 重心半径 网页 正文提取 
基于文本及符号密度的网页正文提取方法被引量:1
《电子设计工程》2019年第8期133-137,共5页洪鸿辉 丁世涛 黄傲 郭致远 
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密...
关键词:文本密度 算法 噪音 正文提取 
高校网络舆情监控系统的设计与实现被引量:1
《福建电脑》2018年第9期49-50,共2页胡万亭 冯慧蕊 
濮阳职业技术学院2017年度院级课题-基于网络论坛的大学生舆情监控系统的设计与实现(编号:2017PYZYBK16)
互联网改变了人们传播舆论的方式,极易导致突发网络舆情事件,本文针对高校网络舆情的特点,设计并实现了基于网络论坛的高校网络舆情监控系统。下载高校论坛网页,抽取正文,统计分析后将数据可视化显示出来。高校管理者通过监控系统可以...
关键词:舆情监控 爬虫 正文提取 分词 统计 
基于结构相似网页聚类的正文提取算法研究被引量:2
《计算机工程与应用》2018年第11期122-127,139,共7页王海涌 冯兆旭 杨海波 张津栋 
甘肃省自然科学基金(No.145RJZA086);兰州交通大学科技支撑基金(No.ZC2014003);兰州市科技计划项目(No.2013-3-79)
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作...
关键词:正文提取 相似性 文档对象模型(DOM)树 层次聚类 
基于改进内容分析算法的网页正文提取被引量:3
《计算机工程与设计》2018年第4期1017-1021,共5页陈婷婷 严华 臧军 
国家973重点基础研究发展计划基金项目(2013CB328903-2)
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过...
关键词:内容分析算法 Readability算法 数据丢失 节点相对距离 正文提取 
基于文本块密度与标签路径等特征的正文提取被引量:1
《广东工业大学学报》2018年第2期51-56,共6页杨贤 唐超兰 李航 
广东省部产学研专项资金企业创新平台资助项目(2013B090800042)
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽...
关键词:正文抽取 文本块 标签路径 文本密度 
基于文本频率页面分割算法对论坛正文提取
《中国水运(下半月)》2018年第2期78-79,共2页马凯凯 钱亚赫 阮东跃 
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页...
关键词:网页链接相似度 文本频率 正则表达式 网页去噪 
基于文本密度的藏文网页正文提取方法被引量:3
《计算机时代》2017年第8期46-47,51,共3页洛松求培 安见才让 
青海省科技厅项目资助(2016-ZJ-Y04)
互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结...
关键词:藏文信息 藏文网页正文提取 HTML WEB网页 
检索报告 对象比较 聚类工具 使用帮助 返回顶部