福建省重点科技计划项目(2003H043)

作品数:3被引量:8H指数:1
导出分析报告
相关作者:薛永生任仲晟陈华昌张东站更多>>
相关机构:厦门大学福建师范大学更多>>
相关期刊:《福建师范大学学报(自然科学版)》《计算机科学》更多>>
相关主题:信息抽取WEB挖掘WEB数据抽取抽取WEB更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-3
视图:
排序:
基于树形结构的Web信息抽取
《福建师范大学学报(自然科学版)》2009年第3期39-46,共8页任仲晟 薛永生 
国家自然科学基金资助项目(50474033);福建省自然科学基金资助项目(A0310008);福建省重点科技项目(2003H043)
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实...
关键词:WEB数据抽取 WEB挖掘 信息抽取 
基于页面标签的Web结构化数据抽取被引量:8
《计算机科学》2007年第10期133-136,共4页任仲晟 薛永生 
国家自然科学基金(50474033);福建省自然科学基金(A0310008);福建省重点科技项目(2003H043)
本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的...
关键词:WEB数据抽取 WEB挖掘 结构化数据 信息抽取 
基于最大频繁等价类的Web信息自动抽取
《计算机科学》2006年第12期169-173,202,共6页陈华昌 薛永生 任仲晟 张东站 
国家自然科学基金(50474033);福建省自然科学基金(A0310008);福建省重点科技项目(2003H043)。
在定义模板的基础上,提出了页面创建模型。该模型描述了如何使用模板将来自于后台数据库的值编码生成页面。基于这个模型,设计了一个基于最大频繁等价类的抽取算法EBMFEC,通过分析给定的数据导向型页面的终端符号的出现情况,找出最大频...
关键词:等价类 信息抽取 模式 模板 
检索报告 对象比较 聚类工具 使用帮助 返回顶部