检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:曾安平[1]
出 处:《宜宾学院学报》2011年第6期71-74,共4页Journal of Yibin University
基 金:四川省教育厅青年基金课题(10ZB049);宜宾市科技局科研基金资助课题(200702036)
摘 要:传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.The traditional text classification algorithms have two disadvantages: firstly,it ignores the contradiction between the relatively fixed features of the training set and the continued changing of new document's themes;secondly,every sample of the training set belongs to one class only,and there is no hierarchical relationship in the classes.Based on the analysis of the two disadvantages,a new semi-supervised algorithm called IC-Rocchio is proposed,and it not only can generate new classes incrementally but also get multi hierarchical relationship between classes.The experiments verified the effectiveness of the algorithm to improve the two disadvantages.
关 键 词:ROCCHIO 文本分类 增量分类 半监督 层次聚类
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.147.70