检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘明吉[1] 王秀峰[1] 饶一梅[1] 黄亚楼[1]
机构地区:[1]南开大学计算机与系统科学系,天津300071
出 处:《小型微型计算机系统》2002年第6期683-686,共4页Journal of Chinese Computer Systems
基 金:天津自然科学技术基金项目 (0 0 3 70 0 111);(993 60 0 811)和 (0 0 3 60 0 3 11)资助
摘 要:Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文本的处理效率 ,为文本的分类、聚类以及其它处理提供了简练的特征表示方法 .实验证明 ,该种处理方法有效地降低了文本特征矢量的维数 .The booming growth of the Internet provides us a great deal of information resource. Web text mining is an efficient technique, which discovery valuable and potential knowledge from those unstructured texts. In this paper, we use VSM as the description of web text and give a feature subset algorithm which is based on the Genetic Algorithm. This algorithm can greatly improve the efficiency of dealing with web texts and give much better way to classify and cluster the texts. Our experiments show that this method active well in feature dimension reduction.
关 键 词:WEB 文本信息 特征获取算法 遗传算法 INTERNET WWW
分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.227