半结构化文档集的结构模式提取的研究与实现  被引量:5

Research and Implementation of Structure Extraction of Semi-structured Document

在线阅读下载全文

作  者:杨建武[1] 陈晓鸥[1] 

机构地区:[1]北京大学计算机研究所文字信息处理技术国家重点实验室,北京100871

出  处:《计算机工程》2001年第10期19-21,113,共4页Computer Engineering

基  金:国家重点工程中国百科术语数据库工程新闻出版署--(上报国家计委的重点工程)

摘  要:提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。A model of structure extraction was brought forward in the paper. First, an idea was given that the semantic structure information been extracted at information source through the rules of the relation between semantic structure information and style information. Then, the paper puts forward a model how to extract structure of semi-structured document. The key step and key algorithm were discussed in detail. Last, the extraction method and its application were summarized with an system, which had been constructed based on the scheme. The idea and the method had been used in an applied system with success.

关 键 词:半结构化文档集 结构模式提取 WEB INTERNET 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象