基于主题-词向量的多粒度特征协同表达多义词研究  

Research on Multi-Granularity Feature Cooperative Expression of Polysemy Based on Topic-Word Embedding

在线阅读下载全文

作  者:汪静 徐昶 王莹莹 WANG Jing;XU Chang;WANG Yingying(Software Engineering Institute,Hubei Science and Technology College,Wuhan 430074;Guidance Center,Hubei Radio&TV University,Wuhan 430074)

机构地区:[1]湖北广播电视大学软件工程学院,武汉430074 [2]湖北广播电视大学导学中心,武汉430074

出  处:《现代计算机》2021年第19期19-24,共6页Modern Computer

基  金:大数据视角下在线学习行为数据挖掘与分析研究(No.hbyy201906);以促进就业为导向的Web前端开发“1+X”证书制度试点探索(No.HBZJ2020020)。

摘  要:词向量作为一种新型的文本表示模型,目前在自然语言处理任务中取得了良好的效果,但是词向量无法很好处理文本中存在的多义词问题。文中深入研究Word2Vec词向量的生成机制,针对一词多义现象,提出“主题-词向量”的概念,该概念可以同时刻画粗粒度的主题信息和细粒度的词向量信息,协同表达多义词,较好地缓解多义词在不同语境下的语义区分问题,并设计了一个基于Skip-Gram的改进模型实现对主题-词向量的计算。最后运用主题-词向量进行多义词表示及文本分类的实验。实验结果表明,提出的“主题-词向量”概念及其实现模型能更好地完成混合了多种语义的文本分类问题。As a new method of Text Representation Model,Word Embedding has achieved good results among various Nature Language Processing tasks,but it can't deal with polysemy from the text.Using the same embedding vector to represent the different meaning of a polysemy is somehow unreasonable.This paper presents a thorough research of the motivation for Word2Vec techniques and promotes a novel concept-Topic-Word Embedding which can represent polysemy with multi-granularity and improve the result for polysemy representation.Meanwhile,we designed an extension of original Skip-Gram model for Topic-Word Embedding computation.In the end,we tested Topic-Word Embedding with text data for polysemy representation and text classification.The result shows Topic-Word Embedding method which is promoted in this paper has an outstanding performance towards text classification which including polysemy.

关 键 词:词向量 Word2Vec 多义词 多粒度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象