基于核方法的XML文档自动分类  被引量:14

XML Document Classification Based on Kernel Method

在线阅读下载全文

作  者:杨建武[1] 

机构地区:[1]北京大学计算机科学技术研究所,北京100871

出  处:《计算机学报》2011年第2期353-359,共7页Chinese Journal of Computers

基  金:国家自然科学基金(60642001;60875033);国家"八六三"高技术研究发展计划项目基金(2008AA01Z421)资助

摘  要:支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果.The Support Vector Machines(SVM) construct best hyper-plane for classification by space map via kernel function.The SVM is one of best methods for document classification.The XML document as a new data model contains structure information and content information.Based on the Structured Link Vector Model(SLVM),Support Vector Machines for XML document classification was studies and the kernel function suitable to XML document classification and being trained based on support vector machine(SVM)'s regression is proposed in the paper,which effectively integrates the structural information and content information.For performance evaluation,the authors apply the method on INEX dataset.The experiment's results show that the XML document classification method based on the kernel method outperform significantly the methods published by INEX.

关 键 词:XML文档 文档分类 核函数 支持向量机 文档模型 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象