正文抽取

作品数:27被引量:115H指数:6
导出分析报告
相关领域:自动化与计算机技术文化科学更多>>
相关作者:孟川武小年周佳颖段晓丽黄仲清更多>>
相关机构:中国科学院中国科学院大学北京大学武汉大学更多>>
相关期刊:《计算机光盘软件与应用》《计算机与现代化》《广东工业大学学报》《桂林电子科技大学学报》更多>>
相关基金:国家自然科学基金教育部人文社会科学研究基金国家科技支撑计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
网络舆情监测及报告系统在高校中的应用
《电脑知识与技术》2020年第26期221-222,230,共3页林伟伟 
目前微博、微信、博客等网络自媒体的出现使得任何人都可以通过网络取得信息。为了帮忙高校进行有效的政策制定,高校可以通过网民的讨论信息发掘目前大众所关注涉及高校的议题与舆情焦点。通过对巨量的网络数据进行文字挖掘可以帮助高...
关键词:WEB信息 数据分析 数据挖掘 信息聚合 正文抽取 文本聚类 
基于文本标点密度连续和的网页正文抽取被引量:2
《计算机时代》2020年第1期69-72,共4页汤佳杰 曹永忠 顾浩 
江苏省研究生研究与实践创新计划KYCX18_2366
为了简化网页正文抽取操作与提高网页正文抽取的准确性,提出了一种基于文本标点密度连续和的抽取方法(TPDS)。TPDS基于网页中文本标点分布的密度并计算密度的连续和,选取所有文本块中连续和最大的文本块,将其确定为网页最佳文本块并抽...
关键词:正文抽取 文本密度 标点分布 标签树 
一种基于SVM及文本密度特征的网页信息提取方法被引量:13
《计算机应用与软件》2019年第10期251-255,261,共6页周艳平 李金鹏 宋群豹 
国家自然科学基金项目(61402246);山东省高等学校科技计划项目(J14LN31)
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样...
关键词:SVM 正文抽取 DOM树 文本密度特征 
基于标签路径覆盖率和多文本特征的正文抽取算法
《大连交通大学学报》2019年第5期112-116,共5页郑野 宋旭东 于林林 陈鑫影 
辽宁省自然科学基金资助项目(1553735707452,20170540144)
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正...
关键词:文本块密度 标签路径覆盖率 正文抽取 
基于支持向量机的网页正文内容提取方法被引量:2
《计算机与现代化》2018年第9期21-26,31,共7页梁东 杨永全 魏志强 
海洋科学与技术国家实验室鳌山科技创新计划项目(2016ASKJ07;2016ASKJ07-08)
针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特...
关键词:支持向量机 正文抽取 HTML标签 降噪 机器学习 
基于标签样式和密度模型的网页正文自动抽取被引量:3
《情报科学》2018年第7期123-129,共7页廖建军 
河南省科技开放合作计划(152106000049);河南省科技攻关项目(162102210246)
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、...
关键词:正文抽取 标签样式 密度模型 网页分块 信息抽取 
基于文本块密度和标签路径覆盖率的网页正文抽取被引量:5
《计算机应用研究》2018年第6期1645-1650,共6页刘鹏程 胡骏 吴共庆 
国家重点研发计划资助项目(2016YFB1000901);国家自然科学基金资助项目(61273297;61229301;61673152);国家教育部创新团队发展计划资助项目(IRT13059);国家留学基金资助项目(201506695019)
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征...
关键词:正文抽取 文本块密度 标签路径覆盖率 特征融合 
基于文本块密度与标签路径等特征的正文提取被引量:1
《广东工业大学学报》2018年第2期51-56,共6页杨贤 唐超兰 李航 
广东省部产学研专项资金企业创新平台资助项目(2013B090800042)
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽...
关键词:正文抽取 文本块 标签路径 文本密度 
基于文本行特征的网页正文信息抽取方法研究
《软件导刊》2017年第10期15-18,共4页刘志杰 潘洋 
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文...
关键词:网页信息抽取 正文特征 网页去噪 正文抽取 
基于文本特征值的正文抽取方法被引量:2
《桂林电子科技大学学报》2017年第2期106-110,共5页孟川 武小年 
广西自然科学基金(2015GXNSFGA139007);广西无线宽带通信与信号处理重点实验室基金(GXKL061510;GXKL0614110);广西可信软件重点实验室基金(KX201622);桂林电子科技大学研究生教育创新计划(YJCXS201524)
针对现有Web正文抽取方法适用性差、准确率低的问题,提出了一种基于文本特征值的正文抽取方法。该方法通过对Web页面的代码进行预处理,再解析转换成DOM树;通过遍历DOM树,以节点的文本长度和标点符号权重计算DOM树各节点的文本特征值,并...
关键词:正文抽取 主题网页 文本特征值 高斯平滑 
检索报告 对象比较 聚类工具 使用帮助 返回顶部