WEB信息抽取

作品数:177被引量:534H指数:12
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:杨文柱李天柱徐林昊袁春风陈荣更多>>
相关机构:东南大学南京大学河北大学大连海事大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家科技支撑计划湖南省教育厅科研基金国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
Web信息抽取技术在吹哨系统中的研究与应用
《中国传媒科技》2023年第4期154-158,共5页郑创伟 王泳 陈少彬 邢谷涛 谢志成 
【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,...
关键词:信息抽取 舆情 数据采集 分布函数 网页结构 
面向历史灾害地震的Web信息精确抽取与分析方法被引量:4
《中国地震》2021年第4期819-828,共10页文鑫涛 郑通彦 王钟浩 李华玥 李晨曦 吕文超 
地震应急信息快速可视化技术研究(2018YFC1504506)资助。
以中国大陆地区灾害地震目录为基础,选取2010—2019年灾害地震的互联网信息,提出基于百度搜索引擎的信息获取技术,并以“时间、地名、震级”为关键词,设计一套URL生成规则。使用该技术进行百度检索,得到前100个站点的主体文字信息,建立...
关键词:灾害地震 WEB信息抽取 灾情信息获取 数据分析 
基于开始定界符的自动Web信息抽取被引量:1
《微型电脑应用》2019年第11期141-142,146,共3页白钰洁 
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取...
关键词:WEB信息抽取 循环神经网络 开始定界符 lxml 
基于R语言的web信息抽取及可视化应用
《科教导刊(电子版)》2018年第34期283-283,共1页马寅秋 
本文通过一个基本的web文本信息抽取实例,展示了在R语言平台下,利用人工构建的正则表达式在静态web文本抽取方面的一些基本做法。同时,将其所抽取的基本内容进行组织,用较为新颖的单帧可视化词云及多帧可视化词云进行呈现。
关键词:信息抽取 正则表达式 R语言 可视化 
物流车货源信息自动抽取系统研究与实现被引量:1
《信息技术》2018年第10期40-44,共5页马汉达 曹瑞 谢诗帧 
2017年江苏大学学生实践创新训练项目(2017102-99330W)
针对物流车货源信息自动抽取方法匮乏,手工构建繁琐且难于维护,物流信息抽取冗余且效率低下的问题,文中根据车货源页面结构特点,通过标签路径识别页面主体元素,并通过元素CLASS选择器自动构建抽取规则,提出了基于标签路径及CSS选择器的...
关键词:WEB信息抽取 分布式爬虫 标签路径 CSS选择器 
Web页面分块算法MDSPS及其在Web信息抽取中的应用研究
《信息通信》2018年第2期137-139,共3页杨丽 
随着第三次工业科技革命在新世纪进程中的发展,人们在社会生活进程中逐渐被电子产品和电子数据所占领,最明显的特点就是互联网的发展、普及和使用。人们获取信息的主要来源,在满足人们对相关信息的搜索、获取、传播的过程,也是对相关We...
关键词:科技革命 互联网 信息 分块算法 
一种基于树型结构的包装器生成算法研究
《电子测试》2017年第12X期135-136,共2页李丹 
2018年沈阳城市建设学院科研发展基金立项项目"面向深网网页的信息抽取算法研究"(XKJ2018006)
在对传统算法Road Runner研究基础上,本文提出一种基于树型结构的包装器生成算法。在对训练样本进行匹配过程中,引入树型结构进行比较,算法运算效率明显提升,对迭代项和可选项的识别也更加精准。
关键词:WEB信息抽取 包装器 树型结构 
基于开发者行为分析的Web资源推荐被引量:2
《计算机科学》2017年第7期147-150,共4页杨君雯 王海 彭鑫 赵文耘 
国家自然科学基金(61370079);国家高技术研究发展计划(863)(2013AA01A605)资助
现代的软件开发集成开发环境(IDE)为开发者提供了错误提示、代码补全、代码分析、版本管理等多方面的辅助开发支持,大大提高了开发效率。同时,开发者在日常开发过程中还常常依赖于互联网获取代码样例、配置说明、错误处理等Web开发资源...
关键词:WEB资源 推荐 集成开发环境 行为监控 WEB信息抽取 
重复模式识别算法及在Web信息抽取和聚类分析中的应用被引量:1
《计算机科学》2017年第B11期39-45,共7页木妮娜.玉素甫 古丽娜.玉素甫 
国家自然科学基金(61263044);新疆维吾尔自治区2015年双语教育研究项目(SY20153136)资助
序列中的重复模式识别算法及应用研究是数据挖掘领域的重要问题,是提取序列中有用信息的主要手段之一。近年来,针对各种重复模式定义、有效的识别算法设计以及重复模式识别算法在有关领域中的应用有了很多研究成果。文中对序列中重复模...
关键词:重复模式 Web文档特征 网络信息抽取 聚类算法 维文信息处理 
基于知识图谱的Web信息抽取系统被引量:16
《计算机工程》2017年第6期118-124,共7页王辉 郁波 洪宇 肖仰华 
上海市科技创新行动计划基础研究项目(15JC1400900);上海市自然科学基金(13ZR1417700)
为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该...
关键词:知识图谱 多领域 WEB信息抽取 网页自动标注 容错 包装器归纳框架 
检索报告 对象比较 聚类工具 使用帮助 返回顶部