基于本体相似度的中文科研论文信息抽取  被引量:2

Information Extraction from Chinese Research Papers Based on Ontology Similarity

在线阅读下载全文

作  者:徐慧[1] 杨学兵[1] 

机构地区:[1]安徽工业大学计算机学院,安徽马鞍山243002

出  处:《计算机技术与发展》2008年第12期203-206,共4页Computer Technology and Development

基  金:安徽省自然科学基金重点资助项目(2004KJ053ZD)

摘  要:随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。提出了基于本体相似度的信息抽取方法,该方法的关键在于用本体相似度判定某个行本体是正例还是反例,然后通过主动学习选择最有可能包含抽取信息的行本体集,再充分利用本体的语义推理能力找到正确的片断。从论文中提取头部信息和引文信息为进一步的语义检索和语义存储奠定基础。测试数据集的实验结果显示该方法比其他方法具有较高的准确率。Information extraction from Chinese research papers based on ontology similarity abstract as many research papers appear on the Intemet, it becomes more and more important to extract paper header information and citations accurately from these papers. Presents a new information extraction algorithm which is based on ontology similarity. The key point of the algorithm is to divide the row - ontology samples into positive ,and negative instances, extract the most appropriate set of row-ontologes by active learning, and then retrieve the correct pieces lie in them by using the reasoning mechanism contained in the ontologies. It can get header information and citation from these papers,which assist the semantic searching and storage. Test results show that the algorithm is more precise than other approaches.

关 键 词:信息抽取 本体相似度 语义推理 主动学习 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象