检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王琪[1] 田明杰[1] 崔荣一[1] 赵亚慧[1] WANG Qi;TIAN Mingjie;CUI Rongyi;ZHAO Yahui(Intelligent Information Processing Lab.,Department of Computer Science and Technology,Yanbian University,Yanji,Jilin 133002,China)
机构地区:[1]延边大学计算机科学与技术学院智能信息处理研究室,吉林延吉133002
出 处:《中文信息学报》2020年第12期39-47,共9页Journal of Chinese Information Processing
基 金:国家语委“十三五”科研规划项目(YB135-76);延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)。
摘 要:针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。A bilingual topical word embedding model is proposed for the Chinese-Korean cross-lingual text classification task.The model combines the topic model with the bilingual word embedding to solve the influence of the ambiguity caused by polysemy on the accuracy to cross-lingual text classification.Firstly,the word embedding representation of bilingual words is trained in a large scale parallel sentence pairs with word-alignment.Secondly,the dataset of classification task is processed and represented by topic model,and the topic words in both languages are obtained.Finally,the word embeddings of these topic words are input into the traditional text classifier and the deep learning text classifier.The experimental results show that the accuracy reach 91.76%in the Chinese-Korean cross-lingual text classification task.
关 键 词:跨语言文本分类 双语词嵌入模型 主题模型 一词多义
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.177