检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡楠 张文强 胡韧奋 HU Nan;ZHANG Wenqiang;HU Renfen
机构地区:[1]北京师范大学汉语文化学院、中文信息处理研究所,北京100875 [2]北京师范大学汉语文化学院、人文宗教高等研究院,北京100875
出 处:《语言文字应用》2022年第2期133-143,共11页Applied Linguistics
基 金:国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”(62006021);北京市社科重点项目“古典文献的智能化分析与关联技术研究”(21DTR037)资助。
摘 要:跨语言的词汇意义比较不仅是词汇类型学研究的重要基础,也可为二语词汇习得和文化影响研究提供参考。为了实现大规模的词汇意义比较,本文提出了一种基于跨语言词向量对齐的方法,以汉语和日语的词汇语义比较为例展开了系统分析。首先,通过汉语和日语预训练词向量获得两种语言中的词汇语义表示,然后,对预训练的两种语言词向量进行空间对齐,以此为基础,分别从词汇概念语义场和同形汉字词两个角度探究汉语和日语词汇的语义相似程度。考察汉日词汇概念语义场时,本文构建了涵盖20个语义场、897个词对的概念词表,通过跨语言词向量计算揭示了两种语言的语义场异同。在同形汉字词分析中,本文通过分类和聚类方法系统考察了3380对同形汉字词的意义分布情况,以期为跨语言词汇意义比较研究提供新的视角。The cross-lingual comparison of lexical meanings is not only an important basis for lexical typology,but also a reference for the studies of second language vocabulary acquisition and cultural influence.In order to achieve large-scale comparison of lexical meanings,this paper proposes a method based on cross-lingual word embedding alignment,and conducts analysis on Chinese and Japanese vocabulary systems.First,we represent the word meanings with the pre-trained Chinese and Japanese monolingual word embeddings,and then align them into the same vector space.Based on the aligned word embeddings,we compare these two vocabulary systems from two perspectives.When investigating the semantic fields of Chinese and Japanese vocabulary,this paper constructs 20 semantic fields covering 897 pairs of words.The similarities and differences of the semantic fields are revealed through the vector computation.In the analysis of homographs,this paper systematically investigates the meaning distribution of 3380 pairs of homographs with classification and clustering methods,aiming at providing a new perspective for the comparative study of cross-language lexical meanings.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.219.130