检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]复旦大学计算机与信息技术系,上海200433
出 处:《计算机工程》2006年第8期107-109,203,共4页Computer Engineering
基 金:国家"863"计划基金资助项目(2002AA231011);上海市重大科技项目(02DJ14013)
摘 要:介绍了VI-DE,数据抽取工具DE-Wrapper的可视化编辑调试环境。DE-Wrapper使用扩展正则表达式(ERE)描述数据源结构,根据该ERE构造数据抽取树(DE-树),然后根据DE-树生成相应的关系数据库模式,最后抽取数据。VI-DE整合了DE-Wrapper的工作流程。该工具首先使用可视化界面支持ERE/DE-树可视化构建,然后自动检查该ERE/DE-树是否具有二义性,最后在样本数据上运行抽取算法并给出数据库结构和抽取结果,供用户进行评价,从而逐步引导用户设计出满足要求的ERE/DE-树。VI-DE已用于构建国内第1个整合的生物信息在线数据仓库系统。This paper describes VI-DE, a visual editing and debugging environment for DE-Wrapper. DE-Wrapper is a tool developed for solving data extraction problems, which describes the structure of data source with the extended regular expressions(ERE) and creates tbe data extraction tree (DE-Tree) according to the ERE, then generates the relational tables and extracts data finally. VI-DE unifies the working process of DE Wrapper. Firstly, VI-DE enables the visual-construction for DE-tree. Secondly, it automatically detects the ambiguity of ERE. Thirdly, the tool runs the data pre-extraction and shows the relational tables created and the result of data extraction using GUI. At last, it runs the data extraction, It helps a user design the ERE/DE-tree that satisfies with the requirement step by step. VI-DE has been applied to build the first online integrated biological data warehouse of China.
关 键 词:数据抽取 扩展正则表达式 DE-Wrapper DE-树
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200