基于数据富集区域的Web内容自动抽取  

Web Content Automatic Extraction Based on Data Enrichment Region

在线阅读下载全文

作  者:许志坚[1] 孙蕾[1] 

机构地区:[1]华东师范大学计算机科学与技术系,上海200241

出  处:《计算机工程》2013年第9期192-195,共4页Computer Engineering

基  金:上海自然科学基金资助项目(09ZR1409500)

摘  要:对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。It can provide valuable information of commodities for value-added services such as parity and price querying to automatically extracting content of commodities from these Web pages in e-commerce sites. An effective method of Web content automatic extraction is proposed for these Web pages, including denoising the target page by comparing tag tree with sample .page and mining the data-rich region from target page by computing similarity between sub-trees based on tree-matching and extracting the data records from data enrichment region. Experimental result for five e-commerce Web sites shows that the precision rate of this method is higher than Mining Data Records(MDR) method, and the recall rate is high.

关 键 词:数据富集区域 Web内容抽取 树匹配 标签树 子树相似度 数据记录 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象