基于本体的文档语义标注改进方法  被引量:19

Improved semantic annotation method for documents based on ontology

在线阅读下载全文

作  者:陈叶旺[1] 李文[1] 彭鑫[1] 赵文耘[1] 

机构地区:[1]复旦大学计算机科学技术学院,上海200433

出  处:《东南大学学报(自然科学版)》2009年第6期1109-1113,共5页Journal of Southeast University:Natural Science Edition

基  金:国家高技术研究发展计划(863计划)资助项目(2007AA01Z179)

摘  要:在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签-文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.实验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.Based on the semantic context and the structural info of a document,an improved semantic annotation method is proposed.The correlation between the ontology entity and the document and the co-appearance of the label-words frequents and the semantic context in local window are analysed and calculated.Firstly,this method extracts the text content from the document,and then decomposes it into a sub-sentences set,a sentences set and a paragraphs set.For each knowledge item in ontology,the context information of the item is extracted,and then the correlation between these information and those decomposed documents sets is calculated.Finally,the final correlation between the knowledge item and the document in the range of all document base and ontology base are obtained. The experimental results show that based on domain ontology,this method can annotate unstructured documents in web automatically and effectively.

关 键 词:本体 语义环境 语义标注 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象