检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国矿业大学计算机科学与技术学院,江苏徐州221116 [2]北京理工大学计算机学院,北京100081
出 处:《北京理工大学学报》2010年第3期315-319,共5页Transactions of Beijing Institute of Technology
基 金:国家部委预研项目(504-4)
摘 要:为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.In order to model text processing effectively, text vectors can be represented as points on statistical manifold and kernels can be used to integrate discriminative and generative model. And then, we present diffuse kernels based on Dirichlet compound multinomial (DCM) manifold. More specifically, we proposed kernel nearest neighbor classifier based on kernel distance metric of DCM manifold to implement text classification task. As demonstrated by our experimental results on various real-world text datasets, we show that our text classifier is more desirable and provides much better computational accuracy than some current state-of-the-art methods.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13