网页文本分类中的特征选择研究  被引量:1

Research of Feature Selection for Web Page Classification

在线阅读下载全文

作  者:庞宁[1] 杨尔弘[2] 

机构地区:[1]太原科技大学应用科学学院,太原030024 [2]北京语言大学,北京100083

出  处:《太原科技大学学报》2007年第4期279-281,共3页Journal of Taiyuan University of Science and Technology

摘  要:由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。Web page classification is different from common text classification because of the presence of some information that provided by the HTML structure. In this paper, .we analyze these peculiarities, and conduct experiments on a corpus of 1000 web page to contrasts three feature selection techniques for dimensionality reduction of the feature space. The paper introduces a new method that the feature item in the different position is endued with different weighting. Our experiments show structure-orlented weighting technique can improve classification performance.

关 键 词:网页分类 特征选择 权重计算 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象