含有位置坐标树的Web页面分析和内容提取框架  被引量:8

Framework of web page analysis and content extraction with coordinate trees

在线阅读下载全文

作  者:封化民 刘飚[2] 刘艳敏[3] 方勇 宋国森[3] 

机构地区:[1]北京电子科技学院信息安全与保密重点实验室,北京100070 [2]北京邮电大学电信工程学院,北京100876 [3]燕山大学信息工程学院,秦皇岛066004

出  处:《清华大学学报(自然科学版)》2005年第S1期1767-1771,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金资助项目(60472082);北京电子科技学院重点实验室资助项目(WEBF)

摘  要:随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。With the development of the internet, the information on the Web has exploded and the presentations of the Web documents are also diverse, the latter brings tremendous troubles to the computer processing, such as information retrieval, information extraction etc. Considering the semi-structure of HTML document and lack of position information of the DOM tree, this paper presents a new framework of web page analysis and content extraction, which includes a novel coordinate tree model containing position info...

关 键 词:坐标树 页面结构分析 内容抽取 DOM 启发式规则 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象