基于KACC模型的文本分类研究  被引量:4

Classifying Texts with KACC Model

在线阅读下载全文

作  者:李钰曼 陈志泊[1] 许福[1] Li Yuman;Chen Zhibo;Xu Fu(School of Information Science&Technology,Beijing Forestry University,Beijing 100083,China)

机构地区:[1]北京林业大学信息学院

出  处:《数据分析与知识发现》2019年第10期89-97,共9页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金项目“面向开源软件复用的程序分析基础理论及方法研究”(项目编号:61772078);北京林业大学热点追踪项目“互联网+生态站关键技术研究”(项目编号:2018BLRD18)的研究成果之一

摘  要:【目的】通过提高文本内容表示的数据质量,关联文本内容和文本标签向量,从而提高文本分类的效果。【方法】改进关键词的抽取方法,并使用关键词向量表示文本,提出类别标签表示算法对文本类别进行向量化表示,提出基于注意力机制的胶囊网络作为分类器,构建KACC模型,并进行文本分类的对比实验。【结果】KACC模型有效提高了数据质量;实验结果表明,KACC模型在准确率、召回率、F值三方面均优于现有模型,分类准确率达97.4%。【局限】实验数据规模受限,未对类别区分度在其他语料上的代表性进行探究。【结论】KACC模型在文本分类方面与现有分类方法相比具有更好的分类效率和效果。[Objective]This paper tries to improve the quality of text representation,and correlate contents with text label vectors,aiming to improve the classification results.[Methods]Firstly,we modified the keyword extraction method(KE).We used the keyword vectors to represent the text,and adopted a category label representation algorithm(CLR)to create the text vectors.Then,we employed the attention-based capsule network(Attention-Capsnet)as the classifier,to construct the KACC(KE-Attention-Capsnet-CLR)model.Finally,we compared our classification results with other methods.[Results]KACC model effectively improved the data quality,which led to better Precision,Recall and F-Measure than existing models.The classification precision reached 97.4%.[Limitations]The experimental data size needs to be expanded,and more research is needed to examine the category discrimination rules with other corpuses.[Conclusions]KACC model is an effective classification model for texts.

关 键 词:文本分类 关键词抽取 注意力机制 胶囊网络 类别标签表示 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象