检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:汪静 徐昶 王莹莹 WANG Jing;XU Chang;WANG Yingying(Software Engineering Institute,Hubei Science and Technology College,Wuhan 430074;Guidance Center,Hubei Radio&TV University,Wuhan 430074)
机构地区:[1]湖北广播电视大学软件工程学院,武汉430074 [2]湖北广播电视大学导学中心,武汉430074
出 处:《现代计算机》2021年第19期19-24,共6页Modern Computer
基 金:大数据视角下在线学习行为数据挖掘与分析研究(No.hbyy201906);以促进就业为导向的Web前端开发“1+X”证书制度试点探索(No.HBZJ2020020)。
摘 要:词向量作为一种新型的文本表示模型,目前在自然语言处理任务中取得了良好的效果,但是词向量无法很好处理文本中存在的多义词问题。文中深入研究Word2Vec词向量的生成机制,针对一词多义现象,提出“主题-词向量”的概念,该概念可以同时刻画粗粒度的主题信息和细粒度的词向量信息,协同表达多义词,较好地缓解多义词在不同语境下的语义区分问题,并设计了一个基于Skip-Gram的改进模型实现对主题-词向量的计算。最后运用主题-词向量进行多义词表示及文本分类的实验。实验结果表明,提出的“主题-词向量”概念及其实现模型能更好地完成混合了多种语义的文本分类问题。As a new method of Text Representation Model,Word Embedding has achieved good results among various Nature Language Processing tasks,but it can't deal with polysemy from the text.Using the same embedding vector to represent the different meaning of a polysemy is somehow unreasonable.This paper presents a thorough research of the motivation for Word2Vec techniques and promotes a novel concept-Topic-Word Embedding which can represent polysemy with multi-granularity and improve the result for polysemy representation.Meanwhile,we designed an extension of original Skip-Gram model for Topic-Word Embedding computation.In the end,we tested Topic-Word Embedding with text data for polysemy representation and text classification.The result shows Topic-Word Embedding method which is promoted in this paper has an outstanding performance towards text classification which including polysemy.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.224