检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]浙江工业大学软件开发环境重点实验室,浙江杭州310014 [2]浙江大学计算机系,浙江杭州310028
出 处:《控制工程》2003年第3期227-229,269,共4页Control Engineering of China
摘 要:WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。It gives the rapid growth of public information sources on the World Wide Web, it is increasingly attractive to extract data from these sources. Current W eb sites present information on various topics in various formats. A great amoun t of effort is often required for a user to manually locate and extract useful d ata from the Web sites.A reference architecture based on pattern d iscovery is developed,which applies PAT trees to pattern discovery.The process r eq uires no human intervention and training example. Experimental result shows that it can achieve high extraction rate over popular search engines.
关 键 词:WEB 数据抽取 模式发现 搜索引擎 WWW 计算机网络
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.219