检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084 [2]富士通中国研究开发中心有限公司,北京100016
出 处:《中文信息学报》2002年第5期23-29,共7页Journal of Chinese Information Processing
摘 要:本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。This paper introduces the design of intelligent Chinese Web topic information gather system IRobot in detail. According to the new features of Web topic informationgather, this system do relevance predication to the URLs to be gathered,together with the relevance scoring to the pages gathered. Especially in relevant predication, new issues about topic information are taken into account thoroughly. All the factors together improve the performance of system. Compared to other research results in this field, IRobot perform better in precision,efficiency and stability, also it can provide us a list of most important Web resources in topic field searched.
关 键 词:智能Web中文主题信息收集系统 IROBOT 信息检索 相关度预测 相关度评价 中文信息处理 系统设计
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229