模式发现在Web抽取中的应用及设计  被引量:7

Application and Design of Web Information Extraction System Based on Pattern Discovery

在线阅读下载全文

作  者:蔡霞[1] 张森[2] 周宇[1] 

机构地区:[1]浙江工业大学软件开发环境重点实验室,浙江杭州310014 [2]浙江大学计算机系,浙江杭州310028

出  处:《控制工程》2003年第3期227-229,269,共4页Control Engineering of China

摘  要:WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。It gives the rapid growth of public information sources on the World Wide Web, it is increasingly attractive to extract data from these sources. Current W eb sites present information on various topics in various formats. A great amoun t of effort is often required for a user to manually locate and extract useful d ata from the Web sites.A reference architecture based on pattern d iscovery is developed,which applies PAT trees to pattern discovery.The process r eq uires no human intervention and training example. Experimental result shows that it can achieve high extraction rate over popular search engines.

关 键 词:WEB 数据抽取 模式发现 搜索引擎 WWW 计算机网络 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象