一种基于核的正交化最大散度差文本特征抽取  

A Kernel-Based Orthogonalized Maximal Scatter Difference Discriminant in Text Feature Extraction

在线阅读下载全文

作  者:刘海峰[1] 姚泽清[1] 刘守生[1] 

机构地区:[1]解放军理工大学理学院,南京210007

出  处:《情报学报》2010年第5期847-852,共6页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金资助项目(编号:7571087)

摘  要:核方法是解决非线性可分性问题的一个重要途径。针对文本自动分类中的特征降维问题,在核最大散度差鉴别分析基础上,提出一种正交化核最大散度差鉴别准则,论证了鉴别向量集在正交化和非正交化的条件下鉴别准则的一致性。在最低限度减少信息损失的前提下实现了文本特征维数的大幅度减缩,改善了最大散度差线性鉴别准则在用于文本分类上的性能。分类试验表明,这种正交化核最大散度差鉴别向量集抽取模型,与线性最大散度差方法相比,具有明显的效率上的优势。Kernel mapping is an important approach in solving the non-linear detachable problem.Aimed at the feature reduction problem in text categorization,this paper brings forward an ortho-gonalized maximal scatter difference discriminant based on kernel.Then we demonstrate the discriminant which has the consistency under the orthogonalized kernel vectors and the non-orthogonalized kernel vectors.At the condition of lower information loss,the feature dimension is reduced greatly.This method has improved the maximal scatter difference performance in text categorization.The experiment on text classification shows that the new model has a better efficiency than the maximal scatter linear difference.

关 键 词:文本分类 特征抽取 散度差 核变换 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象