基于点关联测度矩阵分解的中英跨语言词嵌入方法  被引量:2

Chinese-English Cross-lingual Word Embeddings Based on Pointwise Relevant Measurement Matrix Factorization

在线阅读下载全文

作  者:于东[1,2] 赵艳[2] 韦林煊 荀恩东[1,2] 

机构地区:[1]北京语言大学大数据与教育技术研究所,北京100083 [2]北京语言大学信息科学学院,北京100083

出  处:《中文信息学报》2017年第1期58-65,74,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61300081);国家高技术研究发展计划(863)(2015AA015409);中央高校基本科研业务费专项资金资助项目(北京语言大学科研项目:16YJ030002)

摘  要:研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题。以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息。分别设计目标函数学习中英跨语言词嵌入。从目标函数、语料数据、向量维数等角度进行实验,结果表明,在中英跨语言文档分类中以前者作为点关联测度最高得到87.04%的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英—英词义相似度计算中的性能略高于主流的英语词嵌入。This paper presents a unified model for matrix factorization based word embeddings, and applies the model to Chinese-English cross-lingual word embeddings. It proposes a method to determine cross-lingual relevant word on parallel corpus. Both cross-lingual word co-occurrence and pointwise mutual information are served as pointwise relevant measurements to design objective function for learning cross-lingual word embeddings. Experiments are carried out from perspectives of different objective function, corpus, and vector dimension. For the task of cross-lingual document classification, the best performance model achieves 87.04~ in accuracy, as it adopts cross-lingual word co-occurrence as relevant measurement. In contrast, models adopt cross-lingual pointwise mutual information get better performance in cross-lingual word similarity calculation task. Meanwhile, for the problem of English word similarity calculation, experimental result shows that our methods get slightly higher performance than English word embeddings trained by state-of-the-art methods.

关 键 词:点关联测度 词嵌入 跨语言 矩阵分解 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象