检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《安徽科技学院学报》2012年第6期70-75,共6页Journal of Anhui Science and Technology University
基 金:安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD);安徽科技学院第九批大学生创新课题项目基金(12XSZ09)
摘 要:由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。Due to the massive increasement of web information, any search engine cannot include all web re- sources to get an good coverage ratio for its database size and ability. How to design an uniform search engine to merge existing search engines query results quickly and personally is a big challenge. Therefore, we proposed an extensible web crawler framework which can send keywords to each search engines and integrate their results fea- sibly and personally. Our experiments of system show that our models and algorithms are quite efficient and feasi- ble for better coverage ratio and accuracy.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249