融合句子结构特征的汉老双语句子相似度计算方法  

Sentence Similarity Metirc Between Chinese and Laotian Based on Syntax Feature

在线阅读下载全文

作  者:李炫达 周兰江[1] 张建安 LI Xuanda;ZHOU Lanjiang;ZHANG Jian'an(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500

出  处:《中文信息学报》2022年第2期58-68,共11页Journal of Chinese Information Processing

基  金:国家自然科学基金(61662040)。

摘  要:在低资源神经机器翻译中,双语平行句对是重要的数据资源,融合语言结构特点能够较好地解决双语句子由于语言差异性导致的句子相似度计算不准确问题。该文提出一种融合句子结构特征的汉老双语句子相似度计算方法。首先,通过该文提出的特征模板获取汉语和老挝语对应的句子结构特征,预训练含有句子结构特征的汉老双语词向量分布式表示,并使用双语词典将其映射到共享的语义空间,然后通过带有自注意力(self-attention)机制的双向长短时记忆网络(BiLSTM)获取句子的特征向量表示,最后分别计算双语向量的相对差和相对积,将结果拼接后传输到全连接网络层计算出相似度分数。实验结果表明,相比目前主流研究方法,该文方法在有限的语料下取得了更好的效果(F_(1)值为70.24%)。To construct bilingual parallel sentence pairs,this paper proposes a Chinese-Lao sentence similarity metric incorporating syntactic information.Firstly,the corresponding sentence structure of Chinese and Lao are obtained by the template proposed in this article.Secondly,the pre-trained representation of Chinese-Lao bilingual words with syntactic characteristics is mapped to a shared semantic space using a bilingual dictionary.Thirdly,the sentence representation is obtained through a Bi-directional Long Short-Term Memory(BiLSTM)network with a Self-Attention mechanism.Finally,the relative difference and relative product of the bilingual vectors are calculated and transmitted to the fully connected network layer to calculate the similarity score.Experimental results show that compared with the current mainstream research methods,the proposed method has achieved better results with limited corpus(F_(1)=70.24%).

关 键 词:汉语-老挝语 资源稀缺型语言 句子结构特征 双向长短期记忆网络 自注意力机制 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象