结合类别与语义贡献度的特征权重计算方法  被引量:5

Method of calculation of feature weight based on classification and semantic contribution

在线阅读下载全文

作  者:王勇[1] 王李福 邹辉[1] 何养明 WANG Yong, WANG Li-fu, ZOU Hui, HE Yang-ming(College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, Chin)

机构地区:[1]重庆理工大学计算机科学与工程学院,重庆400054

出  处:《计算机工程与设计》2018年第6期1619-1622,共4页Computer Engineering and Design

基  金:国家自然科学基金项目(61173184)

摘  要:为解决在文本处理实际应用中,各文本通常没有包含明确的类别信息,以及在传统的基于向量空间模型的TFIDF方法中特征项权重计算时,缺乏语义关系和类别区分度的问题,对特征项权重计算方法进行改进。提出特征项的语义贡献度,通过结合模糊聚类得到含有类别信息的文本集合;针对类别对特征项权重的影响提出类别信息熵,结合语义贡献度对传统的TF-IDF方法进行改进。在复旦大学中文文本分类语料库数据集上的测试结果表明,改进后的权重计算方法优于传统的权重计算方法。To solve the problems that the texts do not contain explicit class information in the text processing and lack of semantic relation and category discrimination in the traditional TF-IDF based on vector space model,the method of calculation for feature weight was improved.The semantic contribution of feature items was proposed,by combining fuzzy clustering,a text set containing category information was obtained.The category information entropy was proposed according to the influence of category on the weights of feature items,and the traditional TF-IDF method was improved with the semantic contribution.Through the Fudan University Chinese text classification corpus dataset test,it shows that the improved weight calculation method is superior to the traditional weight calculation method.

关 键 词:模糊聚类 信息熵 文本聚类 类别区分度 向量空间模型 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象