基于层次模型和注意力机制的文本分类算法  被引量:2

Text Classification Based on Hierarchical Model and Attention Mechanism

在线阅读下载全文

作  者:武高博 王黎明[1] 柴玉梅[1] 刘箴[2] WU Gaobo;WANG Liming;CHAI Yumei;LIU Zhen(School of Information Engineering,Zhengzhou University,Zhengzhou,Henan 450001,China;School of Information Science and Technology,Ningbo University,Ningbo,Zhejiang 315211,China)

机构地区:[1]郑州大学信息工程学院,河南郑州450001 [2]宁波大学信息科学与工程学院,浙江宁波315211

出  处:《中文信息学报》2020年第11期84-95,共12页Journal of Chinese Information Processing

基  金:NSFC-通用技术基础研究联合基金(U1636111)。

摘  要:文本分类一直是自然语言处理任务的研究重点与热点,且被广泛应用到诸多实践领域。首先,该文针对文本分类过程中缺乏层次结构特征的问题,对NMF-SVM分类方法进行优化,利用优化后的分类标签构建树形层次模型,从特征树中提取层次特征;其次,针对关键词与非关键词对分类结果影响程度不同的问题,提出SEAN注意力机制,通过对时间、地点、人物和事件四要素的提取,得到不同词之间的注意力;最后,针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集,如新闻、小说、阅读理解、微博,在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比,实验结果表明,该算法在分类效果上具有一定优势。Text classification is one of the focuses of the research with wide applications.This paper optimizes the NMF-SVM classification method to deal with the lack of hierarchical features in the text classification process,achieving a hierarchical classification model.Secondly,to capture the different influences between keywords and the non-keywords on the classification result,we introduce the SEAN attention mechanism to obtain the attention between different words in relation to detect four type of entities:time,place,person and event.Finally,to handle the differences in the strength of sentence connections,an inter-sentence affinity model is proposed for texts of news,novels,reading comprehension,and Weibo,which are rich in above four entities.On the news data set,the model is demonstrated with a better classification result compared with the deep learning text classification model and the hybrid model with attention mechanism.

关 键 词:文本分类 层次模型 注意力机制 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象