检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《浙江理工大学学报(自然科学版)》2011年第4期544-548,共5页Journal of Zhejiang Sci-Tech University(Natural Sciences)
基 金:浙江省"钱江人才计划"项目(2007R10013)
摘 要:文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤。为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中。通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果。Text Categorization is the focus of many areas like Information Retrieval,Data Mining and so on.Feature weighting is an important problem in text categorization.For computing feature weights,this paper presents a feature weighting scheme for text categorization based on rough set theory.The authors analyze the characteristics of rough set theory and TF-IDF,and consider the overall influence which the keywords establish over the classification from the aspects of approximation accuracy and approximation quality.The decision information of a feature for categorization is introduced into the weight of this feature,and the importance of the feature will be fully reflected.The experimental results indicate the effectiveness of approach.
关 键 词:粗糙集理论 特征加权 文本分类 近似分类精度 近似分类质量
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.217