基于MEDL模型的HTML向XML的转换方法  

MEDL-based method of converting HTML to XML

在线阅读下载全文

作  者:杜茂康[1] 李韶华[1] 刘苗[1] 

机构地区:[1]重庆邮电大学经济管理学院,重庆400065

出  处:《重庆邮电大学学报(自然科学版)》2012年第6期788-791,共4页Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition)

基  金:国家自然科学基金(61003256);中国博士后基金(20110490082);重庆市教委科技项目基金(KJ120506);重庆邮电大学自然科学基金(A2011-20)~~

摘  要:基于MEDL模型提出了一种以内容为导向的,将HTML转换为XML数据的方法。在该方法中,根据网页中值域和属性域的识别,并结合MEDL模型对HTML中的数据进行提取,并将其转换为符合要求的格式。该方法具有提取信息精确、转换格式统一等优点,且具备很好的扩展性,能够为深入开展Web数据挖掘提供很好的支持。A content-oriented method of converting information from HTML to XML base on MEDL model is proposed.The presented method identifies information according to attribute area and value area,extracts HTML data based on the MEDL model,and obtained the final data with the structured format.The proposed method has high accuracy of extracting information.The extracted information based on this method has unified format.This method has good scalability and can provide good support for Web Data Mining.

关 键 词:MEDL模型 HTML表格 XML 信息提取 

分 类 号:G203[文化科学—传播学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象