一种基于特征树的Web碎片信息抽取算法被引量：3

An extraction algorithm of web fragment information based on feature tree

出　　处：《兰州理工大学学报》2014年第1期104-107,共4页Journal of Lanzhou University of Technology

基　　金：贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82号)

摘　　要：为进一步解决Web碎片信息所特有的随意性给信息抽取带来的困难,通过对Web碎片信息DOM树的结构特征和Web碎片信息的文本特征(如时间、作者、信息等)进行研究,发现将两者相结合能有效地进行Web碎片信息抽取,提出一种基于特征树的Web碎片信息抽取算法.以新浪微博、腾讯微博、搜狐微博等在内的100个信息分享平台作为实验对象,实验结果表明,该算法具有良好的性能,可以达到较高的召回率与查准率.So as to resolve the message-extraction difficulty due to the randomness characterized by the web fragment information,the architectural features of DOM-tree and the textual features of the web fragment information,such as time,author and message,were explored and analyzed.Then,the efficient extraction of web fragment information can be accomplished by combining the aforementioned two factors.A new algorithm concerning the web fragment information has been proposed on the basis of DOM-tree.The 100 experimenting data that include Sina,Tencent,Sohu as for the experiment object,the experiments were made,the resuts show that the extracting algorithm to web fragment information has good performance and achieve the higher recalling rate and precision rate.

关键词：WEB Web碎片信息 DOM树信息抽取召回率

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于特征树的Web碎片信息抽取算法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于特征树的Web碎片信息抽取算法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于特征树的Web碎片信息抽取算法被引量：3