多信息块Web页面中的抽取规则  被引量:6

Extraction Rule of MIB Web Page

在线阅读下载全文

作  者:王庆一[1] 王继成[1] 周源远[1] 袁春风[1] 

机构地区:[1]南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京210093

出  处:《计算机工程》2003年第9期42-44,50,共4页Computer Engineering

基  金:国家自然科学基金项目(60073030);国家高技术研究发展计划"863"计划项目(2001AA114041)

摘  要:以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。The existent wrapper can not correctly extract all the information from such page is called MIB (multiple information block) Web page. A kind of new extraction rule, which combines the advantage of extraction rules based on document structure and extraction rules based on patterns, is introduced to solve the problem.

关 键 词:Web 信息抽取 包装器 抽取规则 信息集成 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP392[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象