融合语法及结构特征的汉老双语句子相似度计算方法  被引量:2

Sentence Similarity Measure Between Chinese and Lao Based on the Syntax Structure

在线阅读下载全文

作  者:雷歆 周蕾越 周兰江[1,2] LEI Xin;ZHOU Leiyue;ZHOU Lanjiang(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;The Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Faculty of Electrical and Information Engineering,Oxbridge College Kunming University of Science and Technology,Kunming,Yunnan 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学智能信息处理重点实验室,云南昆明650500 [3]昆明理工大学津桥学院电气与信息工程学院,云南昆明650500

出  处:《中文信息学报》2023年第9期73-82,共10页Journal of Chinese Information Processing

基  金:国家自然科学基金(61662040,62166023)。

摘  要:跨语言句子相似度计算是自然语言处理的核心任务之一。标记是老挝语的重要语言特征,汉语中的特定结构也能起到标记的作用,时态与定语广泛存在于汉老双语中。通过分辨时态和定位定语,融入语言特征,能有效提升句子相似度计算的准确率。该文提出融合语法及结构特征的句子相似度计算方法,通过添加特征标签,使用CNN和BiGRU获取含有更多语义信息的双语句子语义表征,连接局部推理的交互聚合结构使双语信息交互,计算交互后序列的相对差和相对积,将其结果拼接并输入到全连接层以获得汉老双语的句子相似度分数。实验结果表明,该文的方法在当下主流方法中有着突出的表现,F 1值达到了77.67%。Cross-language sentence similarity calculation is one important task of natural language processing.Marking is an important linguistic feature of Lao.The specific structure in Chinese can also play the role of marking.Tenses and attributives are widely present in both Chinese and Lao.By distinguishing tenses and positioning attributives and incorporating language features,it can effectively improve the accuracy of sentence similarity calculations.This paper proposes a sentence similarity calculation method based on syntax structure.By adding feature tags,CNN and BiGRU are used to obtain the semantic representation of bilingual sentence,capturing the interactive and aggregated structure of local inferencing.The relative difference and relative product of the sequence are concatenated as the input to the fully connected layer to obtain the sentence similarity score of the Chinese and Lao.The experimental results show that the method achieves a F 1 score of 77.67%.

关 键 词:老挝语 句子相似度 卷积神经网络 双向门控循环单元 局部推理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象