检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京邮电大学计算机学院,江苏南京210003
出 处:《计算机技术与发展》2013年第1期54-58,共5页Computer Technology and Development
基 金:国家自然科学基金资助项目(61170322;71171117);软件开发环境国家重点实验室开放课题(SKLSDE-2011KF-0X);江苏省自然科学基金资助项目(BK2010524)
摘 要:通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。By means of analysis of existing Web information extraction and the current Web page characteristics,current extraction tech- niques are found to have problems that the types of extract page fixed and the extract results are not accurate. In order to make up for the deficiency mentioned above,propose a Web information extraction method based on page classification. This method is able to complete the extraction of the mainstream of information on the lnternet page. By classifying the Web page and extracting the main body of the page, it overcomes the two problems existing in traditional method respectively. A complete model of the Web information extraction is designed and the details of each functional module are provided. The unique features of the model are containing modules of Web page principle part extraction and Web page classification, as well as using regular expression to generate extraction rules automatically that promote the generality and precision of the extraction method. Experimental results have verified the v',didity and accuracy of the method.
关 键 词:WEB信息抽取 正则表达式 页面分类 HTMLPARSER 结点树
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40