检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京大学软件新技术国家重点实验室计算机科学与技术系,南京210093
出 处:《计算机科学》2002年第6期52-54,共3页Computer Science
基 金:国家自然科学基金(编号:600730307); 日本富士通研究所"Web文档清洗"项目
摘 要:1引言 随着Internet在全球的迅速发展,WWW(World WideWeb)已经发展成为一个包含多种信息资源、站点遍布全球的巨大信息服务网络,为用户提供了一个极具价值的信息源,并已成为世界范围内信息共享和信息传播的最主要渠道之一.WWW系统一经出现,就得到了迅猛的发展,无论是WWW站点数还是WWW用户数,都是以每年5~10倍的速度呈指数形式增长.目前仅中国的Internet用户就已经达到了2500万.Information on Web is expanding rapidly, but the quality differs greatly, which makes Web information retrieval and mining more difficulty. Not only research on the technology of information retrieval and Web mining itself needs to be made, but also cleaning Web documents must be done before Web information retrieval and Web mining. However, the latter is often delegted in most current reseach work. This paper puts forward the concept of Web document cleaning. introduces the role that Web document cleaning plays in Web information processing and the process of Web document cleaning. A rule-based system of Web document cleaning is implemented.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147