一种基于网页分割的Web信息检索方法  被引量:3

Information Retrieval Method based on Page Segmentation

在线阅读下载全文

作  者:俞扬信[1] 严云洋[1] 

机构地区:[1]淮阴工学院计算机工程系,淮安223003

出  处:《图书情报工作》2009年第3期108-110,114,共4页Library and Information Service

基  金:淮安市科技计划项目"基于Web级科技计划项目管理系统"(项目编号:HAG08081)研究成果之一

摘  要:提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。A Web information retrieval algorithm based on web page segment is designed. The key idea is to segment each web page into different topic areas or segments according to its HTML tags and contents since web pages are semi-structure. First the algorithm builds a HTML tag tree. Then it combines nodes in the tree by using both the content similarity and visual similarity. The retrieval and ranking algorithm makes use of this segmentation information to search and order the relevant pages.

关 键 词:网页分割 信息检索 HTML标记 相似性 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象