检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李炫达 周兰江[1] 张建安 LI Xuanda;ZHOU Lanjiang;ZHANG Jian'an(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500
出 处:《中文信息学报》2022年第2期58-68,共11页Journal of Chinese Information Processing
基 金:国家自然科学基金(61662040)。
摘 要:在低资源神经机器翻译中,双语平行句对是重要的数据资源,融合语言结构特点能够较好地解决双语句子由于语言差异性导致的句子相似度计算不准确问题。该文提出一种融合句子结构特征的汉老双语句子相似度计算方法。首先,通过该文提出的特征模板获取汉语和老挝语对应的句子结构特征,预训练含有句子结构特征的汉老双语词向量分布式表示,并使用双语词典将其映射到共享的语义空间,然后通过带有自注意力(self-attention)机制的双向长短时记忆网络(BiLSTM)获取句子的特征向量表示,最后分别计算双语向量的相对差和相对积,将结果拼接后传输到全连接网络层计算出相似度分数。实验结果表明,相比目前主流研究方法,该文方法在有限的语料下取得了更好的效果(F_(1)值为70.24%)。To construct bilingual parallel sentence pairs,this paper proposes a Chinese-Lao sentence similarity metric incorporating syntactic information.Firstly,the corresponding sentence structure of Chinese and Lao are obtained by the template proposed in this article.Secondly,the pre-trained representation of Chinese-Lao bilingual words with syntactic characteristics is mapped to a shared semantic space using a bilingual dictionary.Thirdly,the sentence representation is obtained through a Bi-directional Long Short-Term Memory(BiLSTM)network with a Self-Attention mechanism.Finally,the relative difference and relative product of the bilingual vectors are calculated and transmitted to the fully connected network layer to calculate the similarity score.Experimental results show that compared with the current mainstream research methods,the proposed method has achieved better results with limited corpus(F_(1)=70.24%).
关 键 词:汉语-老挝语 资源稀缺型语言 句子结构特征 双向长短期记忆网络 自注意力机制
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.239