检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:石龙[1] 强保华[1,2] 谌超[1] 吴春明[2]
机构地区:[1]桂林电子科技大学计算机科学与工程学院,广西桂林541004 [2]西南大学计算机与信息科学学院,重庆400715
出 处:《计算机应用与软件》2013年第8期54-58,共5页Computer Applications and Software
基 金:国家自然科学基金项目(61163057);广西自然科学基金项目(2012jjAAG0063)
摘 要:随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。With the rapid development of Internet technology, a large number of Web databases have mushroomed and the number remains in a fast-growing trend. In order to effectively organise and utilise the information which hides deeply in Web databases, it is necessary to classify and integrate them according to domains. Since the query interface of Webpage is the unique channel to access the Web database, the classification of Deep Web data source can be realised by classifying the query interfaces. In this paper, a classification method based on text VSM of query interface is proposed. The basic idea is to build a vector space model (VSM) by using query interface text information firstly. Then the typical data mining classification algorithm is employed to train one or more classifiers, thus to classify the domains the query interfaces belonging to is implemented. Experimental result shows that the approach proposed in the paper has excellent classification performance.
关 键 词:DEEP WEB 数据源分类 向量空间模型 数据挖掘 查询接口
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.63