检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004
出 处:《广西大学学报(自然科学版)》2011年第5期787-791,共5页Journal of Guangxi University(Natural Science Edition)
基 金:广西科学研究与技术开发计划(桂科能1140008-3B);广西高校优秀人才资助计划(RC2007004);广西教育厅科研基金(200708LX360)
摘 要:建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。The chain-based father structure tree is established to describe and store Web page information,and an efficient Web information extraction algorithm based on unit identification is designed and implemented by applying Htmlparser and a description method with regular expressions.The analysis and experimental results show that the proposed Web information extraction method can improve the retrieval precision and recall ratio.
关 键 词:单元识别 信息抽取 父亲结构树 HTMLPARSER 正则表达式
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28