检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周源远[1] 王继成[1] 郑刚[1] 张福炎[1]
机构地区:[1]南京大学软件新技术国家重点实验室南京大学计算机科学与技术系,江苏南京210093
出 处:《计算机应用研究》2003年第10期24-28,共5页Application Research of Computers
基 金:国家自然科学基金项目"Web信息过滤的智能化方法与协作技术研究"(60073030);国家"863"计划重点项目"智能化中文信息处理平台"(2001AA110334)项目协助
摘 要:随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的浏览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到"层次化"的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory ReturnedAlgorithmforHierarchicalClassification)。该方法着眼于层次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length of Error Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。Automatic text classification has become more and more important as a result of information explosion on the Internet. Thousands of documents need to be classified so that users can access them easily. Numerous approaches have been proposed to solve such a problem, but few of them deal with the hierarchical classification case, and most of them only return one category result. In this paper, we present a straightforward algorithm MRHC, which aims at hierarchical classification and assigns the testing document to multiple categories if necessary. Feature reduction and incremental training technology are also used to improve the classifying performance. A new evaluation metric based on the LengthofErrorPath (LEP) is also proposed to evaluate the accuracy of hierarchical classification more objectively. Experiments demonstrate the feasibility of our approach with short system responding time and high accuracy.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.118.7.80