检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈建超[1] 胡桂武[1] 杨志华[2] 严桂夺[3]
机构地区:[1]广东商学院数学与计算科学学院,广州510320 [2]广东商学院信息学院,广州510320 [3]华南理工大学计算机科学与工程学院,广州510640
出 处:《计算机工程与应用》2011年第10期147-150,共4页Computer Engineering and Applications
基 金:国家自然科学基金No.60873088;广东省自然科学基金(No.06301003)~~
摘 要:文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。The three key points of text clustering are feature selection and weight calculation,texts similarity calculation and cluster center determination.This paper proposes two new methods based on the characteristic of free texts for feature-weight calculation and texts similarity calculation separately.Then an improved CBC algorithm is proposed to determine the cluster centers adaptively and globally.This algorithm produces all cluster center correctly,and obtains precision of 88.50% and 94.00% for two different text-set separately.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.67.226