一种新型垂直搜索引擎构建方法  被引量:1

A new method for constructing vertical search engine

在线阅读下载全文

作  者:王美霞[1] 李玉坤[1] 肖迎元[1] 

机构地区:[1]天津理工大学计算机与通信学院

出  处:《天津理工大学学报》2012年第4期84-88,共5页Journal of Tianjin University of Technology

基  金:国家自然科学基金(61170027;61170174);天津市自然科学基金(11JCYJC26700)

摘  要:如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题.本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略.该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率.通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性.How to effectively construct a field-oriented vertical search engine is an important topic concerned by many researchers of information retrieval area. This paper proposes a method to construct a field-oriented vertical search engine based on professional vocabulary. Through analysis of the characteristics of web pages, this paper proposes the heuristic strategy for crawling web page, which integrates the link structure and text content of web pages, and takes the weight of words in web pages as a factor for working out the correlation between the web page and the field concerned, which can effectively improve the query performance of vertical search engine. Through developing a vertical search engine of medical field, the effective- ness of the method proposed in this paper is verified.

关 键 词:垂直搜索引擎 构建方法 专业词汇表 网页结构 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象