基于标签内特征词的OA期刊站点自动分类方法  被引量:2

An Automatic Classification Approach for Open Access Journal Websites Based on Terms in Tags

在线阅读下载全文

作  者:张付志[1] 李勇 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004 [2]河北省计算机虚拟技术与系统集成重点实验室,河北秦皇岛066004

出  处:《小型微型计算机系统》2014年第1期60-63,共4页Journal of Chinese Computer Systems

基  金:教育部科技发展中心网络时代的科技论文快速共享专项研究课题项目(2011109)资助;河北省自然科学基金项目(F2011203219;F2013203124)资助

摘  要:开放存取(OA)期刊站点的自动分类是整合OA期刊论文资源建立数字资源库的前提.文中提出一种基于网页标签内特征词的OA期刊站点自动分类方法.首先,抽取网页不同HMTL标签中的词构建语料库,将网页中不同的标签赋予不同的权值,并提出了最优权值计算算法,据此对TF*IDF计算模型进行改进,从而计算特征词权值得到文本向量表示;然后,计算每两个类别的最小欧氏距离,取最小欧氏距离较大的一对类别构建上层分类节点,对有向无环图支持向量机(DAG-SVM)的构建过程进行改进;最后,利用改进的DAG-SVM对OA期刊站点进行分类.实验结果表明,该方法具有较好的分类效果.The automatic classification of Open Access ( OA ) journal websites is the premise of the integration of OA journal paper resources for establishing a digital repository. Therefore, in this paper we propose an automatic classification approach for OA journal websites based on terms in tags. Firstly, we extract terms in some tags as a corpus. We assign different weights for HTML tags in web page and propose an algorithm to calculate the optimal weights. We accordingly improve the computational model of TF ~ IDF to calculate the weights of terms, so as to get vector representation of web pages. Secondly, by calculating the minimum Euclidean dis- tance between categories, we take two categories with a larger minimum Euclidean distance to build the upper classification nodes. So, the building process of directed acyclic graph support vector machine ( DAG-SVM ) is improved and the cumulative error is reduced. Finally, we use the improved DAG-SVM to classify the OA journal websites. The experimental results show that the proposed approach has good classification effect.

关 键 词:OA期刊 网页分类 TF*IDF 支持向量机 有向无环图 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象