基于词向量的藏文语义相似词知识库构建  被引量:5

Construction of Knowledge Base of Semantic Similar Tibetan Words Based on Word Vectors

在线阅读下载全文

作  者:龙从军[1,3] 周毛克 刘汇丹[3] LONG Congjun;ZHOU Maoke;LIU Huidan(Institute of Ethnology and Anthropology,Chinese Academy of Social Sciences,Beijing 100081,China;Graduate School,University of Chinese Academy of Social Sciences,Beijing 102488,China;Institute of Software,Chinese Academy of Sciences,Beijing 100083,China)

机构地区:[1]中国社会科学院民族学与人类学研究所,北京100081 [2]中国社会科学院大学(研究生院),北京102488 [3]中国科学院软件研究所,北京100083

出  处:《中文信息学报》2020年第10期33-38,50,共7页Journal of Chinese Information Processing

基  金:中国社会科学院创新工程项目(2019MZSCX005);喜马拉雅区域协同创新中心项目(ZFYJY201901009)。

摘  要:词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。Word vectors play an important role in various fields of natural language processing.This paper tries to reveal the relationship between word vector technology and linguistic theory.Based on the features of word vectors,this paper proposes an approach to construct knowledge base of semantic similar Tibetan words.Based on the Chinese<Cilin>dictionary,published by Harbin University of Technology,we compute the differences between every word vector and the average word vectors of the atomic word group.With the help of Chinese-Tibetan bilingual dictionary,we deploy such differences to select the similar words from word vectors by Tibetan words and Tibetan syllables,respectively.Compared with those of manual verification,we find that the results of word vector computing are consistent with human language intuition.This approach may improve the efficiency of constructing Tibetan knowledge base of semantic similar words.

关 键 词:词向量 藏文 语义相似词 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象