基于DOM和网页模板的Web信息抽取  被引量:1

Information Extraction for the Web Sources Based on DOM and WebTemPlate

在线阅读下载全文

作  者:王丽[1] 唐建雄[1] 

机构地区:[1]武汉理工大学,计算机科学与技术学院,湖北,武汉,430063 武汉理工大学,计算机科学与技术学院,湖北,武汉,430063

出  处:《电脑知识与技术(过刊)》2007年第18期1617-1619,共3页Computer Knowledge and Technology

摘  要:文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.Information extraction studled by the Paper is based on D0M (Document object Model) and web template. According to the definition of DOM,the paper describes the structure of web Pages by constructing HTML Parsing tree. Before Information extraction,the noise information can be filtrated in web pages by inducting web template. Then,the paper uses the extraction rule based on relative path to extract information in web pages. At last,the paper presents the result of inducting web template3s and extracting web pages. From the result,it is evident that the way of inducting web templates and the way of extracting web pages are correct and effective.

关 键 词:信息抽取 文档结构模型 网页模板 抽取规则 相对路径 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象