发现与切分复杂网页中的数据对象  

Detecting and Partitioning of Data Objects in Complex Web Pages

在线阅读下载全文

作  者:成奋华 叶施仁[2] 

机构地区:[1]湖南科技职院,长沙410004 [2]株洲工学院,湖南株洲412000

出  处:《计算机工程与应用》2005年第18期179-183,共5页Computer Engineering and Applications

摘  要:提出了一种从复杂网页中发现和切分有用的数据对象的自动方法。文章比较来自于同一网站的相似网页,从而发现其内容的组织和结构。首先,通过剔除页面中无关的部件,获得干净的数据区,它覆盖了数据对象的描述。其次,我们切分数据区中属于不同数据对象的结点,并由此构造结构良好、具备自我解释能力的XML输出文件,其中每一个文件恰包含一个数据对象。用户可以很方便地进一步从这些文件中提取数据到数据库和模板。实验结果表明该方法是有效的。This paper presents an automated approach to detect and partition useful data objects from complex Web pages.The organization and structure of the pages can be derived when we compare the similar pages from the same Web site.Firstly,we detect the clean data region covering the description of data objects by removing the irrelevant contents from the Web page.Secondly,we partition the nodes belonging to different data objects in the data region and construct the well-formatted and self-explainable XML output files,one for each data object.It is then easy to extract data from these output files into a database or template for presentation to the users.The experiments indicate that our technique is effective.

关 键 词:信息抽取 Web采掘 机器学习 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象