检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王勇[1] 王李福 邹辉[1] 何养明 WANG Yong, WANG Li-fu, ZOU Hui, HE Yang-ming(College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, Chin)
机构地区:[1]重庆理工大学计算机科学与工程学院,重庆400054
出 处:《计算机工程与设计》2018年第6期1619-1622,共4页Computer Engineering and Design
基 金:国家自然科学基金项目(61173184)
摘 要:为解决在文本处理实际应用中,各文本通常没有包含明确的类别信息,以及在传统的基于向量空间模型的TFIDF方法中特征项权重计算时,缺乏语义关系和类别区分度的问题,对特征项权重计算方法进行改进。提出特征项的语义贡献度,通过结合模糊聚类得到含有类别信息的文本集合;针对类别对特征项权重的影响提出类别信息熵,结合语义贡献度对传统的TF-IDF方法进行改进。在复旦大学中文文本分类语料库数据集上的测试结果表明,改进后的权重计算方法优于传统的权重计算方法。To solve the problems that the texts do not contain explicit class information in the text processing and lack of semantic relation and category discrimination in the traditional TF-IDF based on vector space model,the method of calculation for feature weight was improved.The semantic contribution of feature items was proposed,by combining fuzzy clustering,a text set containing category information was obtained.The category information entropy was proposed according to the influence of category on the weights of feature items,and the traditional TF-IDF method was improved with the semantic contribution.Through the Fudan University Chinese text classification corpus dataset test,it shows that the improved weight calculation method is superior to the traditional weight calculation method.
关 键 词:模糊聚类 信息熵 文本聚类 类别区分度 向量空间模型
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.144.46.149