检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]苏州大学计算机科学与技术学院,苏州215006
出 处:《计算机工程》2010年第12期66-68,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60673092);2007质检公益项目科研专项基金资助项目(10-60);江苏省高校自然科学基金资助项目(07KJD520187);江苏省现代企业信息化应用支撑软件工程技术研究开发中心开放基金资助项目(SX200902)
摘 要:根据Deep Web数量的爆炸性增长特点,提出一种基于查询接口文本的Deep Web数据源分类算法,对于分类的查询接口,采用2种方法:基于向量空间的TF-IDF方法和基于知网的语义相似度方法。综合2种方法获得接口之间的相似度。借鉴K-NN算法,提出WDB分类算法,从而实现Deep Web数据源的分类。实验结果表明,该算法在熵和F-measure 2种评价标准上均能获得较高质量,具有一定实用价值。As the volume of information in the Deep Web grows, a Deep Web data source classification algorithm based on query interface context is presented. Two methods are combined to get the search interfaces similarity. One is based on the vector space. The classical TF-IDF statistics are used to gain the similarity between search interfaces. The other is to compute the two pages semantic similarity by the use of HowNet. Based on the K-NN algorithm, a WDB classifaction algorithm is presented. Experimental results show this algorithm generates high-quality clusters, measuring with both in terms of entropy and F-measure. It has the practical value of application.
关 键 词:深层网 数据源分类 知网 K—NN算法 语义分类
分 类 号:TP311.52[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.93.197