检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京信息工程大学计算机与软件学院,江苏南京210044 [2]安徽师范大学计算机系,安徽芜湖241000
出 处:《情报理论与实践》2007年第6期837-840,共4页Information Studies:Theory & Application
基 金:安徽省软科学研究项目;项目编号:05035019;安徽省高校青年教师科研资助项目;项目编号:2005jq1043
摘 要:文本自动分类是文本信息处理中的一项基础性工作。将范例推理应用于文本分类中,并利用词语间的词共现信息从文本中抽取主题词和频繁词共现项目集,以及借助聚类算法对范例库进行索引,实现了基于范例推理的文本自动分类系统。实验表明,与基于TFIDF的文本表示方法和最近邻分类算法相比,基于词共现信息的文本表示方法和范例库的聚类索引能有效地改善分类的准确性和效率,从而拓宽了范例推理的应用领域。Text auto-categorization is a foundational task in text information processing. This article discusses how to apply case-based reasoning in text categorization. It uses the term co-occurrence information among words to extract the topic words and the frequent term co-occurrence item set in text, and the clustering algorithm to index the case base, thus constructing a text auto-categorization system based on case-based reasoning. The experimental results show that the text representation method based on the term co-occurrence information and the clustering index of case base can effectively improve the precision and efficiency of categorization compared with the text representation method based on TFIDF and the Nearest Neighbor Categorization Mgorithm, thereby widening the application range of case-based reasoning.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.80.46