基于本体的HTML表格识别技术的研究  

Study on structure recognization technique for ontology-based HTML tables

在线阅读下载全文

作  者:袁鸿雁[1] 

机构地区:[1]沈阳职业技术学院计算机系,沈阳110045

出  处:《长春工程学院学报(自然科学版)》2010年第1期108-110,共3页Journal of Changchun Institute of Technology:Natural Sciences Edition

摘  要:由于HTML只描述数据怎样显示而不描述数据的内容,因此识别HTML表格并抽取其数据是Web信息抽取领域中重要的研究课题之一,针对现在包装器技术的不足提出了一种新的基于领域本体的HTML表格结构识别技术,为构造HTML表格信息抽取系统打下基础。HTML focuses on data presentation rather than data contents.As a result,how to understand the HTML tables on the internet and collect its data integration becomes one of the most important research subjects in the field of web information extraction.This paper,aiming at the current lack of wrapper technology,presents a new domain ontology-based HTML table structure recognition technology,and lays a solid foundation for constructing HTML table information extraction system

关 键 词:HTML表格 本体 DOM树 启发式规则 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象