Web文本分类及其阻塞减少策略  被引量:1

WEB TEXT CLASSIFICATION AND BLOCKING REDUCTION STRATEGIES

在线阅读下载全文

作  者:徐春荣[1] 欧阳为民[2] 勾海波[1] 

机构地区:[1]上海大学计算机工程与科学学院,上海200072 [2]上海大学计算机网络中心,上海200072

出  处:《计算机应用与软件》2007年第1期58-60,128,共4页Computer Applications and Software

摘  要:W eb挖掘中,根据内容对W eb文档进行分类是至关重要的一步。在W eb文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别。然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞)。针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善W eb文档分类中文档被错误阻塞的情况。One common approach in Web text classification is hierarchical text classification that involves associating classifiers with nodes in the category tree and classifying text documents in a top-down manner. However, the hierarchical text classification methods suffer from bloc- king "which refers to documents wrongly rejected by the classifiers at higher-levels and cannot be passed to the classifiers at lower-levels. In this paper,we use a classifier-centric performance measure known as blocking factor to determine the extent of the blocking and use two methods, namely ,Threshold Reduction, Restricted Voting to address the blocking problem in Web text classification.

关 键 词:数据挖掘 WEB挖掘 分类 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象