一种多值返回的层次化分类方法  

A Multicategory-Returned Algorithm for Hierarchical Classification

在线阅读下载全文

作  者:周源远[1] 王继成[1] 郑刚[1] 张福炎[1] 

机构地区:[1]南京大学软件新技术国家重点实验室南京大学计算机科学与技术系,江苏南京210093

出  处:《计算机应用研究》2003年第10期24-28,共5页Application Research of Computers

基  金:国家自然科学基金项目"Web信息过滤的智能化方法与协作技术研究"(60073030);国家"863"计划重点项目"智能化中文信息处理平台"(2001AA110334)项目协助

摘  要:随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的浏览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到"层次化"的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory ReturnedAlgorithmforHierarchicalClassification)。该方法着眼于层次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length of Error Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。Automatic text classification has become more and more important as a result of information explosion on the Internet. Thousands of documents need to be classified so that users can access them easily. Numerous approaches have been proposed to solve such a problem, but few of them deal with the hierarchical classification case, and most of them only return one category result. In this paper, we present a straightforward algorithm MRHC, which aims at hierarchical classification and assigns the testing document to multiple categories if necessary. Feature reduction and incremental training technology are also used to improve the classifying performance. A new evaluation metric based on the LengthofErrorPath (LEP) is also proposed to evaluate the accuracy of hierarchical classification more objectively. Experiments demonstrate the feasibility of our approach with short system responding time and high accuracy.

关 键 词:分类 层次化分类 多值分类 错误路径长度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象