检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西安电子科技大学软件工程研究所,陕西西安710071
出 处:《系统工程与电子技术》2010年第5期1088-1093,共6页Systems Engineering and Electronics
基 金:国家"十一五"国防预研基金(513060601);陕西省自然科学基金(SJ08F25)资助课题
摘 要:为了准确评价多层文本分类方法,解决传统平面分类评价指标应用到多层分类中的局限性,在研究基于概念树的多层文本分类方法基础上,有效利用多层结构中类别之间的层次关系和"亲疏"关系,提出了一组能够准确描述多层分类性能的扩展评价指标。利用错误分类样本分布定义了错误分类集中度,在评价分类结果的同时能够指导训练样本的选择过程,使得训练样本更具有代表性。通过中文新闻语料的分类实验,证明了扩展评价指标对于多层分类结果的评价更为准确,错误分类集中度有助于训练出更加准确的分类模型。To evaluate hierarchical classification methods and resolve the limitations of conventional flat classification measures for hierarchical classification evaluation,after studying the hierarchical classification method based on concept tree,a set of extended measures are put forward to accurately describe its performance,by effectively using the level and "affinity" among the categories in hierarchical structure.And further a definition of error classification concentration ratio(ECCR) is given based on the distribution of misclassification samples.Besides evaluation the classification result,ECCR can guide the training samples selection process to make the training set more representative.Through the experiment of Chinese news corpus classification,it proves that the extended measures for hierarchical classification result are more accurate,and ECCR is helpful to train the more accurate classification model.
关 键 词:模式识别 文本分类 类别层次 错误分类分布 分类模型
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.22.120.195