检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]天津理工大学计算机与通信学院
出 处:《天津理工大学学报》2012年第4期84-88,共5页Journal of Tianjin University of Technology
基 金:国家自然科学基金(61170027;61170174);天津市自然科学基金(11JCYJC26700)
摘 要:如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题.本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略.该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率.通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性.How to effectively construct a field-oriented vertical search engine is an important topic concerned by many researchers of information retrieval area. This paper proposes a method to construct a field-oriented vertical search engine based on professional vocabulary. Through analysis of the characteristics of web pages, this paper proposes the heuristic strategy for crawling web page, which integrates the link structure and text content of web pages, and takes the weight of words in web pages as a factor for working out the correlation between the web page and the field concerned, which can effectively improve the query performance of vertical search engine. Through developing a vertical search engine of medical field, the effective- ness of the method proposed in this paper is verified.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229