基于主题本体扩展特征的短文本分类  被引量:4

Short text categorization based on theme ontology feature extended

在线阅读下载全文

作  者:湛燕[1] 陈昊[1] 

机构地区:[1]河北大学数学与计算机学院、河北省机器学习与计算智能重点实验室,河北保定071002

出  处:《河北大学学报(自然科学版)》2014年第3期307-311,共5页Journal of Hebei University(Natural Science Edition)

基  金:国家自然科学基金资助项目(60903088);河北省自然科学基金资助项目(F2013201064;A2010000188);河北大学自然科学研究计划青年基金资助项目(2010Q23);河北省软科学研究计划项目(14450318D)

摘  要:短文本具有不同于普通文本的独有特点,例如文本长度较短,特征选择分散不一,这使得短文本文类需要处理这些特殊的问题.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能.同时,通过GC(扩展能力)算法使用了案例维护学习,在K-近邻算法中减少样例个数,从而可以提高搜索近邻样例的效率.数值型实验证明了这种学习算法的有效性.Short text classification problem need to face some special problems to be solved different from traditional text classification, such as short text length, features sparse. This paper uses the feature extended method based on theme Ontology. It can get better classification performance by considering the semantic relations. Meanwhile, using case-base maintenance learning via the GC (generalization capabili- ty) algorithm, which can reduce the case number into K-NN algorithm, can improve efficiency when inde- xing near neighbor in K-Nearest Neighbor algorithm. The numerical experiments prove the validity of this learning algorithm.

关 键 词:短文本分类 主题本体 案例维护 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象