基于Siamese循环神经网络的泰文句子切分方法  

Thai sentence segmentation based on Siamese recurrent neural network

在线阅读下载全文

作  者:线岩团[1,2] 张志菊 王红斌[1,2] 文永华[1,2] XIAN Yan-tuan;ZHANG Zhi-ju;WANG Hong-bin;WEN Yong-hua(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500

出  处:《计算机工程与科学》2021年第12期2238-2242,共5页Computer Engineering & Science

基  金:国家自然科学基金(61363044,61462054)。

摘  要:泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析和机器翻译等自然语言处理任务带来了额外的困难。针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断句方法,该方法无需人工定义特征,而是采用统一的循环神经网络分别对候选断句点前后的词序列进行编码;然后,通过综合前后词序列的编码向量作为特征来构建泰文句子切分模型。在ORCHID泰文语料上的实验结果表明,所提出的方法优于传统泰文句子切分方法。Thai rarely use punctuation,and there are no obvious separators between sentences.Sentences need to be segmented by semantics,which brings extra difficulties to natural language processing tasks such as lexical analysis,syntactic analysis and machine translation.This paper proposes a sentence segmentation method based on dual-path neural network.Compared with the traditional Thai sentence segmentation method,this method does not need to define the feature manually,but uses a unified circular neural network to encode the sequence of words before and after the candidate interval.Then,the coding vector of the sequence before and after the sequence is used as the feature to construct the Thai segmentation classification model.Experimental results on the Orchid97 Thai corpus show that the proposed method is superior to the traditional Thai sentence segmentation method.

关 键 词:泰文 句子切分 循环神经网络 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象