智能Web中文主题信息收集系统IRobot的设计  被引量:7

The Design of Intelligent Chinese Web Topic Information Gather System IRobot

在线阅读下载全文

作  者:马亮[1] 陈群秀[1] 王俊 徐国伟 

机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084 [2]富士通中国研究开发中心有限公司,北京100016

出  处:《中文信息学报》2002年第5期23-29,共7页Journal of Chinese Information Processing

摘  要:本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。This paper introduces the design of intelligent Chinese Web topic information gather system IRobot in detail. According to the new features of Web topic informationgather, this system do relevance predication to the URLs to be gathered,together with the relevance scoring to the pages gathered. Especially in relevant predication, new issues about topic information are taken into account thoroughly. All the factors together improve the performance of system. Compared to other research results in this field, IRobot perform better in precision,efficiency and stability, also it can provide us a list of most important Web resources in topic field searched.

关 键 词:智能Web中文主题信息收集系统 IROBOT 信息检索 相关度预测 相关度评价 中文信息处理 系统设计 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象