检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘艳敏[1] 刘飚[2] 封化民[3] 宋国森[1] 方勇[2]
机构地区:[1]燕山大学信息工程学院,河北秦皇岛066004 [2]北京邮电大学电信工程学院,北京100876 [3]北京电子科技学院信息安全与保密重点实验室,北京100070
出 处:《计算机工程与应用》2006年第21期146-148,共3页Computer Engineering and Applications
基 金:国家自然科学基金资助项目(编号:60472082)
摘 要:Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。The main information in a web page is always hidded among unimportant features such as unnecessary images and irrelevant links,this makes it difficult for the users to acquire the topical information,and that limits its availability.In this paper,we propose a novel approach to extract topical information from web pages and present the corresponding algorithms.Experiments on a set of 5,000 web pages from 120 different sites show that the method is practical,and can achieve 91.35% in accuracy.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222