检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西大学计算机电子信息学院,广西南宁530004
出 处:《计算机与现代化》2009年第8期73-75,79,共4页Computer and Modernization
摘 要:网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析。结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页。Approaches of page segment reduce the LUSt of Web information extraction from page to block. This paper studies the main approaches of page segment and the based-learning block importance model, and analyses the approach of Xpath-based Web information extraction. Combining the advantages of the two approaches, this paper proposes a new Web information extraction based on combining block importance model and Xpath, discusses its design process, and gives its formalized description and ex- perimental result. The result shows that this approach is fit for extracting from the Web which has many records.
关 键 词:网页分块 块重要性权重 XPATH WEB信息抽取
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.232.138