检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]长江师范学院数学与计算机学院
出 处:《西南师范大学学报(自然科学版)》2010年第4期159-163,共5页Journal of Southwest China Normal University(Natural Science Edition)
基 金:重庆市教委科学技术研究项目(KJ091309)
摘 要:提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.It is proposed that a new model based on table structure that extracts information from tables of Web documents.It is composed of table positioning module and table information extraction module.The theme table by the contents characteristics of the Web tables is identified.The area segmentation cleans up tables and segments them into attribute and value areas by checking visual and semantic coherency.The experimental results show that this model is well performed in information extraction from tables of Web documents.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.227.107.69