检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]贵州师范学院数学与计算机科学学院,贵州贵阳550018
出 处:《兰州理工大学学报》2014年第1期104-107,共4页Journal of Lanzhou University of Technology
基 金:贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82号)
摘 要:为进一步解决Web碎片信息所特有的随意性给信息抽取带来的困难,通过对Web碎片信息DOM树的结构特征和Web碎片信息的文本特征(如时间、作者、信息等)进行研究,发现将两者相结合能有效地进行Web碎片信息抽取,提出一种基于特征树的Web碎片信息抽取算法.以新浪微博、腾讯微博、搜狐微博等在内的100个信息分享平台作为实验对象,实验结果表明,该算法具有良好的性能,可以达到较高的召回率与查准率.So as to resolve the message-extraction difficulty due to the randomness characterized by the web fragment information,the architectural features of DOM-tree and the textual features of the web fragment information,such as time,author and message,were explored and analyzed.Then,the efficient extraction of web fragment information can be accomplished by combining the aforementioned two factors.A new algorithm concerning the web fragment information has been proposed on the basis of DOM-tree.The 100 experimenting data that include Sina,Tencent,Sohu as for the experiment object,the experiments were made,the resuts show that the extracting algorithm to web fragment information has good performance and achieve the higher recalling rate and precision rate.
关 键 词:WEB Web碎片信息 DOM树 信息抽取 召回率
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.101