利用HTML标签筛选网页分类样本  被引量:3

Using HTML Tag to Filter Samples for Web Page Classification

在线阅读下载全文

作  者:侯小静[1] 王黎明[1] 

机构地区:[1]郑州大学信息工程学院,河南郑州450052

出  处:《微机发展》2005年第3期142-144,共3页Microcomputer Development

摘  要:互联网的Web网页中蕴藏着内容广泛、形式各异的信息资源,通过网页的自动分类可以更好地对其内容进行组织和管理,加快信息检索的速度。在训练网页分类器时,对网页样本集进行有效地筛选有可能改善分类器的性能。文中利用HTML文档的结构特点,基于标签对网页样本集进行筛选,从中去除索引型和表格型网页,实验表明,这种方法有一定的可行性。The World Wide Web provides access to a great deal of information on a vast array of subject.By classifying the Web page automatically,can organize the information on the Web better and find what people need more quickly. And the classifier's performance may be improved by filtering the samples in the training set.The structure of HTML document in this article is analysed,and a way to eliminate the kinds of pages which are more like index pages or more like data table pages from training set using tags is presented. It is proved to be feasible by an experiment.

关 键 词:超文本标识语言 文档对象模型 标签 网页分类 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象