检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许世明[1,2] 武波[1] 马翠[2] 邸思[2] 徐洪奎[2] 杜如虚[2]
机构地区:[1]西安电子科技大学计算机学院,西安710071 [2]中国科学院深圳先进技术研究院,广东深圳518067
出 处:《计算机工程与应用》2010年第1期125-128,共4页Computer Engineering and Applications
摘 要:中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。Chinese Web page classification has been considered as a hot research area in data mining,and SVM is an effective method for learning the classification knowledge from massive data.In this paper,a model of automatic Chinese Web page classification system based on SVM is presented first.Then detailed design and implementation are introduced,and some key techniques about Chinese Web page classification,including Web page pre-processing,feature selection and weight computing are discussed.A pre-classification method by a given keywords list is proposed,and the principles and detailed implementation are described.The experiment shows that it not only reduces time but also increases in precision and recall compared with using SVM classifier only.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.135.223.175