网页采集

作品数:13被引量:98H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:张凯程学旗俞晓明刘悦余智华更多>>
相关机构:中国科学院麦格创科技(深圳)有限公司浙江工商大学北京大学更多>>
相关期刊:《国家图书馆学刊》《大庆师范学院学报》《计算机工程与应用》《计算机工程》更多>>
相关基金:国家重点基础研究发展计划浙江省自然科学基金国家社会科学基金国家部委预研基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于云计算的政府网站网页在线归档管理平台构建研究被引量:5
《中国档案》2020年第5期72-72,共1页黄新平 
平台的体系架构(1)基础设施层。作为平台建构的基础,主要提供政府网站网页在线归档各业务流程所需的网络、计算、存储等IT资源。该层利用虚拟化技术对现有的物理设备资源进行逻辑分割,形成可管理、可调度的虚拟IT资源,从而将一台服务器...
关键词:政府网站 在线归档 数据库 网页采集 浏览器 管理平台 云计算 构建研究 
基于LDA模型的网页采集算法设计研究
《大庆师范学院学报》2018年第6期55-58,共4页胡六四 
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。...
关键词:LDA 网页采集 动态内容 
一种可自由配置的网页采集系统原理及其实现
《电脑知识与技术(过刊)》2015年第12X期133-135,共3页李营那 张瑜 
国家信息安全专项项目(发改办高技[2015]289号)
随着信息技术的发展,互联网已成为信息发布和获取的主要渠道,大数据环境下,信息就是资源、竞争力,如何从互联网中发现并获取有效的信息已成为各行业亟待解决的问题。该文提出了一种可自由配置的网页采集系统的原理及其实现,该系统可高...
关键词:网络爬虫 内容抽取 自由配置 
利用网页信息采集技术建立医院内网新闻平台的探讨被引量:1
《教育教学论坛》2013年第51期198-199,共2页张雷 李菁姝 马宇新 张玮 
利用网页采集技术,搭建内部新闻平台,医护人员通过信息系统内部网络即可及时了解国内和国际新闻动态。
关键词:网页采集 内网新闻 CMS 
基于突发事件热度的站点地图构建算法被引量:6
《计算机应用研究》2012年第8期2943-2947,共5页陈翰 韩永峰 李弼程 
国家社会科学基金重大项目(09&ZD014)
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含...
关键词:站点地图 突发事件 网页采集 网络舆情 数据挖掘 
面向主题的网页采集系统的设计与研究被引量:3
《计算机与数字工程》2008年第4期78-80,93,共4页王煜 张浩斌 
对面向主题的信息采集技术进行了探索性研究。采用基于DOM的信息抽取技术,建立混合空间模型表示内容和结构特征信息,并通过定义网页间相似性来识别主题页面。较好的处理了Web信息抽取中主题页面识别的问题,实验结果证明了系统的可行性。
关键词:面向主题 混合向量空间模型 相似性 
一种互联网新闻网页的采集分析方法被引量:1
《计算机工程与应用》2007年第36期169-172,共4页吴定明 赵东岩 
国家部委"十一五"预研项目(the Pre-Research Project of the"Eleventh Five-Year-Plan"of China Ministries and Commissions No.2006BAH02A10)
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、...
关键词:链接分析 页面评估 互联网 网页采集 链接识别 链接权重 网页权重分析 新闻网页 
CFan安全信息榜
《电脑爱好者》2007年第16期48-48,共1页
补丁公告:微软安全公告MS07-038补丁介绍:随着微软的Vista操作系统开启普及安装,系统的安全隐患也逐渐被发现,近期网上一些安全技术人员发现;Vista自带的防火墙系统在用户访问含有恶意攻击代码的网站地址时可以自动拦截代码执行,但会被...
关键词:防火墙系统 操作系统 微软 MS 杀毒软件 文件 计算机系统 防病毒软件 CFAN 病毒库 蠕虫病毒 补丁 网页采集 
WWW论坛中的动态网页采集被引量:11
《计算机工程》2007年第6期80-82,共3页李魁 程学旗 郭岩 张凯 
国家"973"计划基金资助项目"大规模文本内容计算"(2004CB318109)
网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息。该文利用论坛的结构特点,提出了一种“版面-主题关联判断”(BTCJ)算法,...
关键词:互联网论坛 信息采集 动态网页 
基于Ontology的面向主题的网络信息采集算法被引量:6
《图书情报工作》2006年第5期78-82,共5页刘军 凌云 王勋 
浙江省2004年自然基金项目"面向电子商务的语义信息搜索与挖掘研究"(项目编号:M063149)的研究成果之一。
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法有助于提高Ontology的构建速度;最后,在分析传统采集算法的基础上,提出一种新的基于Ontology的面向主题...
关键词:网页采集 ONTOLOGY RDFS 
检索报告 对象比较 聚类工具 使用帮助 返回顶部