检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]复旦大学计算机科学技术学院,上海200433
出 处:《东南大学学报(自然科学版)》2009年第6期1109-1113,共5页Journal of Southeast University:Natural Science Edition
基 金:国家高技术研究发展计划(863计划)资助项目(2007AA01Z179)
摘 要:在领域本体知识的语义环境和资源文档结构基础上,提出一种文档语义标注改进方法,分析、计算标签-文档的词频相关性和语义环境在局部窗口的共现性,实现对各类文档资源的语义标注.该方法首先提取出文档资源的纯文本内容,并分解出子句、句和段落集合.然后,对于每个具体的领域知识项,在本体知识库中寻找其语义环境信息.最后,按照7条相关度规则,分别计算出这些信息与分解后文档内容的相关度,从而完成整个文档库内和知识库内的综合计算,得到该项知识与文档资源的最终相关度.实验结果显示,该方法能够依据领域本体,有效地对互联网中大量以网页等形式存在的多种类文档知识资源进行自动语义标注.Based on the semantic context and the structural info of a document,an improved semantic annotation method is proposed.The correlation between the ontology entity and the document and the co-appearance of the label-words frequents and the semantic context in local window are analysed and calculated.Firstly,this method extracts the text content from the document,and then decomposes it into a sub-sentences set,a sentences set and a paragraphs set.For each knowledge item in ontology,the context information of the item is extracted,and then the correlation between these information and those decomposed documents sets is calculated.Finally,the final correlation between the knowledge item and the document in the range of all document base and ontology base are obtained. The experimental results show that based on domain ontology,this method can annotate unstructured documents in web automatically and effectively.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249