网络数据智能提取  被引量:1

Net Information Retrieved Intelligently

在线阅读下载全文

作  者:王斌[1] 

机构地区:[1]武汉大学计算机学院,湖北武汉430072

出  处:《计算机仿真》2004年第1期84-86,共3页Computer Simulation

摘  要:HTML是当前编写网页使用的最多的语言 ,如何利用HTML这种标记性语言的特点 ,让计算机提供给用户快速获取知识的途径成为许多计算机工作者的一大难题。该文介绍一个有效的从互联网上提取知识的方法供参考。把这种方法简单的分成 4个途径。①规范化基于HTML的网页脚本 ;②将网页结构和内容用一棵内容树表示 ;③比较相似网页的内容树生成提取规则 ;④将规则和下载程序结合得到最终的知识获取软件。HTML language is widely used in writing web pages .How to make use of the language tag and how to let the computer find quickly what we really want bore us for a long time .Here I introduce a efficacious way in how to get knowledge from the internet and prevent the user from getting useless information from the net. My approach can be employed by 1:a processor for converting HTML page more normal;2:convert the page structure and its content to a content tree;3:compare the similar pages and generate the download rule; 4:combine the download rule and the download program into a knowledge acquisition software.

关 键 词:HTML 互联网 内容树 知识获取 数据挖掘 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象