基于信息量的Web表格信息抽取方法  被引量:2

Information Extraction on Web Tables Based on Information Ratio

在线阅读下载全文

作  者:曾广朴[1] 陶维安[1] 

机构地区:[1]长江师范学院数学与计算机学院

出  处:《西南师范大学学报(自然科学版)》2010年第4期159-163,共5页Journal of Southwest China Normal University(Natural Science Edition)

基  金:重庆市教委科学技术研究项目(KJ091309)

摘  要:提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.It is proposed that a new model based on table structure that extracts information from tables of Web documents.It is composed of table positioning module and table information extraction module.The theme table by the contents characteristics of the Web tables is identified.The area segmentation cleans up tables and segments them into attribute and value areas by checking visual and semantic coherency.The experimental results show that this model is well performed in information extraction from tables of Web documents.

关 键 词:WEB表格 有效信息率 文档对象模型 信息抽取 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象