基于Wikipedia的语义元数据生成  被引量:4

Semantic Metadata Generation:A Method Based on Wikipedia

在线阅读下载全文

作  者:韩先培[1] 赵军[1] 

机构地区:[1]中国科学院自动化所模式识别国家重点实验室,北京100190

出  处:《中文信息学报》2009年第2期108-114,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60673042);国家863计划资助项目(2006AA01Z144);北京市自然科学基金资助项目(4073043)

摘  要:语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题:通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。Semantic metadata, which provides semantic information about data, plays an important role in document management, fusion and information search. The automatic metadata generation technique, which subsumes the acquisition of target semantic metadata and the collection of training corpus as two fundamental problems, becomes more demanding in the data explosion time. The first problem involves expert knowledge and the second problem needs lots of manual work, and accordingly, they are critical to a successful system. In this paper, we resolve the two problems based on Wikipedia: extracting the target metadata by analyzing the table-of-contents of Wikipedia's entries and building the training corpus by analyzing the Wikipedia entry's structure and assigning its true semantic metadata. The experiment results demonstrate that this approach can resolve the two issues in automatic metadata generation effectively.

关 键 词:计算机应用 中文信息处理 元数据 语义元数据 数据处理 语料库构建 语义标注 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象