基于HTML解析器的Web信息提取技术  被引量:1

The technology of Web information extraction based on HTML Parser

在线阅读下载全文

作  者:王琳琳[1] 

机构地区:[1]枣庄学院计算机科学系,山东枣庄277160

出  处:《郑州轻工业学院学报(自然科学版)》2008年第6期100-102,106,共4页Journal of Zhengzhou University of Light Industry:Natural Science

摘  要:提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.The information from Web pages were extracted by HTML Parser and regular expression. The method can parse HTML file and extract the main part from the HTML file. Experimental results show that the extraction precision is higher than 95 %. The method is simple and accurate.

关 键 词:WEB信息提取 正则表达式 HTML解析器 主题信息 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象