网络数据智能提取

INTELLIGENT ACQUISITION OF NETWORK DATA

出　　处：《石油工业计算机应用》2003年第2期36-38,5,共3页Computer Applications Of Petroleum

摘　　要：HTML是当前编写网页使用的最多的语言,如何利用HTML这种标记性语言的特点,让计算机提供给用户快速的获取知识的途径成为许多计算机工作者的一大难题。文章介绍一个有效的从互联网上提取知识的方法供大家参考。这种方法可分成4个途径:①规范化基于HTML的网页脚本;②将网页结构和内容用一棵内容树表示;③比较相似网页的内容树生成提取规则;④将规则和下载程序结合得到最终的知识获取软件。HTML is currently the most popular language used to edit webpages. The computer engineers are faced with a big issue of how to utilize the characteristics of the HTML markup language to help the users rapidly access information on the Internet. The paper introduces an effective approach of acquiring information from the Internet, which includes 4 processes: (1) HTML-based normalization webpage script;(2)the webpage structure and content can be expressed with one content tree; (3)the acquisition rule is generated by comparing the similar content trees;(4)The rule and download procedure are incorporated to obtain the final knowledge acquisition software.

关键词：网络数据智能提取树型化知识获取数据挖掘

分类号：TP311.13[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网络数据智能提取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

网络数据智能提取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索