检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:乔建忠[1,2]
机构地区:[1]中国科学院国家科学图书馆,北京100190 [2]解放军艺术学院教育技术中心,北京100081
出 处:《图书情报工作》2010年第18期120-125,129,共7页Library and Information Service
摘 要:提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法K-Means,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。In this paper, a novel framework and methodology for learning non-taxonomic relationships based focused crawler is pres- ented. According to the characteristics of ontology learning from the Web, the main methods used in this paper are word frequency, co -occurrence statistics and, K-Means one of partitioning clustering algorithm, without the complex syntax analysis and semi-supervised clustering algorithm such as EM, BIRCH and SOM, and therefore achieves a high degree of automation and efficiency. Study results will be used to analyze and judge the relevance of the topic for focused crawling. The quality of relations learning will be evaluated objectively by the performance in the practical application of the focused crawler.
关 键 词:本体学习 非分类关系 主题爬虫 分割聚类算法 相关度
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222