检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:钟旭东[1,2,3] 黄章进[1,2,3] 顾乃杰[1,2,3] 张旭[1,2,3]
机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]中国科学技术大学安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学先进技术研究院,合肥230027
出 处:《小型微型计算机系统》2016年第5期890-894,共5页Journal of Chinese Computer Systems
基 金:安徽省自然科学基金项目(1408085MKL06)资助;高等学校学科创新引智计划项目(B07033)资助
摘 要:Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率.Web texts classification is an important technology for Web data mining. To take advantage of the semi-structure of HTML in web classification, the common method is to assign different weights to different tags manually. This approach is entirely based on personal experience, thereby failing to fully utilize the structural characteristics of the sample set. As a result, the classification perform- ance is not necessarily the best. To deal with this situation, this paper proposes an optimization algorithm to automatically tune the weights of Web text's tags based on differential evolution. Meanwhile, Differential optimization algorithm has been improved to enhance its local search capability. Experimental results show that this method can fully utilize the features of the sample set and is able to improve the accuracy of classification effectively.
关 键 词:WEB文本分类 自动权重调优 差分进化算法 半结构特征
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.87.126