半结构化文档中非标记化表格的抽取  被引量:3

Untagged Table Extraction in Semi-structured Documents

在线阅读下载全文

作  者:宋强[1] 徐鹏[1] 李涓子[1] 

机构地区:[1]清华大学计算机系,北京100084

出  处:《计算机工程》2005年第18期81-83,171,共4页Computer Engineering

摘  要:对非标记化表格进行数据建模,利用非标记化表格在文档中的结构分布特征,给出了非标记化表格的抽取算法。对非标记化表格进行行列划分,然后进行标题归纳和单元格合并。实验结果表明,论文提出的算法的正确性令人满意。Based on the data modeling of the untagged table, this paper proposes an extraction algorithm by using its structural distribution features in documents. It splits the untagged table into rows and columns, and then inducts headers and merges cells. Experimental results indicate that the accuracy of the algorithm is satisfactory.

关 键 词:非标记化表格 信息抽取 分层聚类 

分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象