基于结构与文本关键词相关度的XML网页分类研究  被引量:13

An Efficient XML Documents Classification Method Based on Structure and Keywords Frequency

在线阅读下载全文

作  者:袁家政[1] 须德[1] 鲍泓[2] 

机构地区:[1]北京交通大学计算机与信息技术学院,北京100044 [2]北京联合大学信息技术研究所,北京100101

出  处:《计算机研究与发展》2006年第8期1361-1367,共7页Journal of Computer Research and Development

基  金:教育部科学技术研究重点项目(2002KJ124);北京市优秀人才培养资助项目(20051D0502206)~~

摘  要:针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法·算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类·实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题·According to the XML Web page character, an efficient method for computing XML document similarity, position weight and frequency of keywords in documents is presented. Then some features are selected from XML documents based on the method and a multi-classification algorithm of XML Web page is proposed using support vector machines. In this algorithm, a CFK(classifier feature kernel) of common similarity features is created from each sample set of XML documents class. The class label of an XML document is determined by computing similar distance between a test XML document and each CFK. Experimental results prove the effectiveness of the classification algorithm and good performance for multiclassification of XML documents.

关 键 词:XML分类 文档结构 关键词特征 支持向量机 

分 类 号:TP311.135.4[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象