统计流形扩散核的文本分类方法  被引量:3

Text Classification Using Diffusion Kernel on Statistical Manifold

在线阅读下载全文

作  者:李侃[1] 周世斌[2] 刘玉树[1] 

机构地区:[1]北京理工大学计算机学院 [2]中国矿业大学计算机科学与技术学院

出  处:《模式识别与人工智能》2012年第2期339-345,共7页Pattern Recognition and Artificial Intelligence

基  金:国家自然科学基金(No.60903071);北京市重点学科基金(No.xk100070427)资助项目

摘  要:提出Dirichlet混合多项式(DCM)流形,并利用DCM流形可与正半球流形建立同胚和等距关系的性质,通过拉回映射将正半球流形的测地距离映射为DCM流形的测地距离,从而在DCM流形上建立距离度量,构建统计流形上的Dirichlet混合多项式扩散核和Dirichlet混合多项式倒排文档频率(DCMIDF)扩散核.利用WebKB Top4和20 Newsgroups语料库上进行实验,DCM流形能比欧氏空间更能准确地描述文本.与多项式核支持向量机算法、,负测地距离核支持向量机算法相比,实验结果显示文中基于DCM扩散核和DCMIDF扩散核的支持向量机算法可取得良好的文本分类效果.Dirichlet compound multinomial manifold (DCM manifold) is proposed. DCM manifold with positive sphere manifold is homeomorphic and isometric, so the geodesic distance of positive sphere manifold can be mapped as the geodesic distance of DCM manifold through pullback mapping. Then the distance metric is built on DCM manifold. DCM diffusion kernel function and DCMIDF diffusion kernel function are built on DCM manifold. The performance of the proposed algorithms for text classification are tested on the corpuses of WebKB Top 4 and 20 Newsgroups, and the experimental results show that DCM manifold is more desirable than that of Euclidean space in modeling texts on the corpuses. Compared with polynomial kernel based support vector machine and NGD kernel based support vector machine, the proposed DCM diffusion kernel and DCMIDF diffusion kernel based support vector machine algorithms show better computational accuracy for text classification.

关 键 词:统计流形 扩散核 Dirichlet分布 文本分类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象