网络数据智能提取  

INTELLIGENT ACQUISITION OF NETWORK DATA

在线阅读下载全文

作  者:王斌[1] 王汉飞[1] 

机构地区:[1]武汉大学计算机学院

出  处:《石油工业计算机应用》2003年第2期36-38,5,共3页Computer Applications Of Petroleum

摘  要:HTML是当前编写网页使用的最多的语言,如何利用HTML这种标记性语言的特点,让计算机提供给用户快速的获取知识的途径成为许多计算机工作者的一大难题。文章介绍一个有效的从互联网上提取知识的方法供大家参考。这种方法可分成4个途径:①规范化基于HTML的网页脚本;②将网页结构和内容用一棵内容树表示;③比较相似网页的内容树生成提取规则;④将规则和下载程序结合得到最终的知识获取软件。HTML is currently the most popular language used to edit webpages. The computer engineers are faced with a big issue of how to utilize the characteristics of the HTML markup language to help the users rapidly access information on the Internet. The paper introduces an effective approach of acquiring information from the Internet, which includes 4 processes: (1) HTML-based normalization webpage script;(2)the webpage structure and content can be expressed with one content tree; (3)the acquisition rule is generated by comparing the similar content trees;(4)The rule and download procedure are incorporated to obtain the final knowledge acquisition software.

关 键 词:网络数据 智能提取 树型化 知识获取 数据挖掘 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象