检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]武汉工业学院数学与计算机学院,湖北武汉430023
出 处:《现代物业(下旬刊)》2012年第9期97-100,共4页Modern Property Management
基 金:项目名称:湖北省教育厅科研项目"基于语义网的半结构化信息抽取技术及其应用研究"。项目编号:D200618003
摘 要:首先对搜索引擎中的主题网络爬虫进行介绍,以Java开源网络爬虫Heritrix为基础,阐述其工作原理及架构。在此基础上通过Internet粮食交易信息网站与爬虫的自动采集技术相结合展开对该领域主题网络爬虫开发的研究。In this paper, the focused web crawler in search engine was firstly introduced ,based on the Java open source Web crawler Heritrix, elaborared it's principle and structure. On this basis, expand the study of the thematic networks in the field of reptile development through the Internet grain trading information site and reptiles of the automatic acquisition technology combining.
关 键 词:网络爬虫 HERITRIX 向量空间模型 匹配算法
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.158