改进的基于本体的Web信息抽取被引量：6

IMPROVED ONTOLOGY-BASED WEB INFORMATION EXTRACTION

出　　处：《计算机应用与软件》2013年第7期14-16,42,共4页Computer Applications and Software

基　　金：国家自然科学基金专项基金项目(71240003);山东省自然科学基金项目(ZR2012FM003);山东科技大学专项基金项目(YCA120341;YCA120345)

摘　　要：针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。In light of the idea that the Web information extraction mainly to be done according to the content, by analysing the ontology- based Web information extraction technology, we introduce webpage segmentation concept in the process of webpage pretreatment. Through the webpage segmentation technology we accurately extract the extraction region of the required information, then process it according to ontology extraction rules, and ultimately get the information required. Through the experiments we verify that the improved ontology-based Web information extraction algorithm has higher precision and recall rate, and has good prospects in practical applications.

关键词：信息抽取网页分块本体抽取规则准确率

分类号：TP3[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

改进的基于本体的Web信息抽取被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

改进的基于本体的Web信息抽取 被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

改进的基于本体的Web信息抽取被引量：6