一种基于特征树的Web碎片信息抽取算法  被引量:3

An extraction algorithm of web fragment information based on feature tree

在线阅读下载全文

作  者:向程冠[1] 熊世桓[1] 

机构地区:[1]贵州师范学院数学与计算机科学学院,贵州贵阳550018

出  处:《兰州理工大学学报》2014年第1期104-107,共4页Journal of Lanzhou University of Technology

基  金:贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82号)

摘  要:为进一步解决Web碎片信息所特有的随意性给信息抽取带来的困难,通过对Web碎片信息DOM树的结构特征和Web碎片信息的文本特征(如时间、作者、信息等)进行研究,发现将两者相结合能有效地进行Web碎片信息抽取,提出一种基于特征树的Web碎片信息抽取算法.以新浪微博、腾讯微博、搜狐微博等在内的100个信息分享平台作为实验对象,实验结果表明,该算法具有良好的性能,可以达到较高的召回率与查准率.So as to resolve the message-extraction difficulty due to the randomness characterized by the web fragment information,the architectural features of DOM-tree and the textual features of the web fragment information,such as time,author and message,were explored and analyzed.Then,the efficient extraction of web fragment information can be accomplished by combining the aforementioned two factors.A new algorithm concerning the web fragment information has been proposed on the basis of DOM-tree.The 100 experimenting data that include Sina,Tencent,Sohu as for the experiment object,the experiments were made,the resuts show that the extracting algorithm to web fragment information has good performance and achieve the higher recalling rate and precision rate.

关 键 词:WEB Web碎片信息 DOM树 信息抽取 召回率 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象