统计流形上基于核近邻算法的文本分类研究  

Text Classification Based on Kernel Neighbor Algorithm on Statistical Manifold

在线阅读下载全文

作  者:周世斌[1,2] 白敬华[2] 刘玉树[2] 

机构地区:[1]中国矿业大学计算机科学与技术学院,江苏徐州221116 [2]北京理工大学计算机学院,北京100081

出  处:《北京理工大学学报》2010年第3期315-319,共5页Transactions of Beijing Institute of Technology

基  金:国家部委预研项目(504-4)

摘  要:为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.In order to model text processing effectively, text vectors can be represented as points on statistical manifold and kernels can be used to integrate discriminative and generative model. And then, we present diffuse kernels based on Dirichlet compound multinomial (DCM) manifold. More specifically, we proposed kernel nearest neighbor classifier based on kernel distance metric of DCM manifold to implement text classification task. As demonstrated by our experimental results on various real-world text datasets, we show that our text classifier is more desirable and provides much better computational accuracy than some current state-of-the-art methods.

关 键 词:扩散核 核近邻 狄利克雷混合多项式 文本分类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象