基于跨语言对齐词向量的汉日词汇意义比较研究  被引量:4

A Comparative Study of Chinese and Japanese Lexical Meaning Based on the Alignment of Cross-lingual Word Embeddings

在线阅读下载全文

作  者:胡楠 张文强 胡韧奋 HU Nan;ZHANG Wenqiang;HU Renfen

机构地区:[1]北京师范大学汉语文化学院、中文信息处理研究所,北京100875 [2]北京师范大学汉语文化学院、人文宗教高等研究院,北京100875

出  处:《语言文字应用》2022年第2期133-143,共11页Applied Linguistics

基  金:国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021);北京市社科重点项目“古典文献的智能化分析与关联技术研究”(21DTR037)资助。

摘  要:跨语言的词汇意义比较不仅是词汇类型学研究的重要基础,也可为二语词汇习得和文化影响研究提供参考。为了实现大规模的词汇意义比较,本文提出了一种基于跨语言词向量对齐的方法,以汉语和日语的词汇语义比较为例展开了系统分析。首先,通过汉语和日语预训练词向量获得两种语言中的词汇语义表示,然后,对预训练的两种语言词向量进行空间对齐,以此为基础,分别从词汇概念语义场和同形汉字词两个角度探究汉语和日语词汇的语义相似程度。考察汉日词汇概念语义场时,本文构建了涵盖20个语义场、897个词对的概念词表,通过跨语言词向量计算揭示了两种语言的语义场异同。在同形汉字词分析中,本文通过分类和聚类方法系统考察了3380对同形汉字词的意义分布情况,以期为跨语言词汇意义比较研究提供新的视角。The cross-lingual comparison of lexical meanings is not only an important basis for lexical typology,but also a reference for the studies of second language vocabulary acquisition and cultural influence.In order to achieve large-scale comparison of lexical meanings,this paper proposes a method based on cross-lingual word embedding alignment,and conducts analysis on Chinese and Japanese vocabulary systems.First,we represent the word meanings with the pre-trained Chinese and Japanese monolingual word embeddings,and then align them into the same vector space.Based on the aligned word embeddings,we compare these two vocabulary systems from two perspectives.When investigating the semantic fields of Chinese and Japanese vocabulary,this paper constructs 20 semantic fields covering 897 pairs of words.The similarities and differences of the semantic fields are revealed through the vector computation.In the analysis of homographs,this paper systematically investigates the meaning distribution of 3380 pairs of homographs with classification and clustering methods,aiming at providing a new perspective for the comparative study of cross-language lexical meanings.

关 键 词:词向量对齐 跨语言词义比较 汉日同形词 词汇类型学 

分 类 号:H087[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象