一种基于循环神经网络的古文断句方法  被引量:24

A Sentence Segmentation Method for Ancient Chinese Texts Based on Recurrent Neural Network

在线阅读下载全文

作  者:王博立 史晓东[1,2,3] 苏劲松[4] 

机构地区:[1]厦门大学智能科学与技术系,厦门361005 [2]厦门大学两岸关系和平发展协同创新中心,厦门361005 [3]福建省类脑计算技术及应用重点实验室,厦门361005 [4]厦门大学软件学院,厦门361005

出  处:《北京大学学报(自然科学版)》2017年第2期255-261,共7页Acta Scientiarum Naturalium Universitatis Pekinensis

基  金:教育部专项"简繁汉字智能转换系统";教育部博士点基金(20130121110040);国家科技支撑计划项目(2012BAH14F03);国家自然科学基金(61573294);CCF中文信息技术开放课题(CCF2015-01-01)资助

摘  要:提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU(gated recurrent unit)的双向循环神经网络进行古文断句。在解码过程中,该算法不仅利用神经网络输出的概率分布,还进一步引入状态转移概率和长度惩罚,以便提高断句准确率。在大规模古籍语料上的实验结果表明,所提方法能够取得比传统方法更高的断句F1值。This paper proposes an automatic sentence segmentation method for ancient Chinese texts based on recurrent neural network (RNN).A bi-directional RNN structure with gated recurrent units (GRU) is implemented,and state transition probability and length penalty are employed in decoding to improve the accuracy.Experimental results show that proposed model achieves higher F1 score than traditional methods.

关 键 词:古汉语 断句 循环神经网络 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP183[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象