针对中文分词的带标签注意力的成词记忆网络  被引量:3

Wordhood memory networks with label attention for Chinese word segmentation

在线阅读下载全文

作  者:韩士洋 马致远 杨芳艳 李想[1,3] 汪伟 Han Shiyang;Ma Zhiyuan;Yang Fangyan;Li Xiang;Wang Wei(Institute of Machine Intelligence,University of Shanghai for Science&Technology,Shanghai 200093,China;School of Mechanical Engineering,University of Shanghai for Science&Technology,Shanghai 200093,China;School of Optical-Electrical&Computer Engineering,University of Shanghai for Science&Technology,Shanghai 200093,China;State Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210093,China)

机构地区:[1]上海理工大学机器智能研究院,上海200093 [2]上海理工大学机械工程学院,上海200093 [3]上海理工大学光电信息与计算机工程学院,上海200093 [4]南京大学计算机软件新技术国家重点实验室,南京210093

出  处:《计算机应用研究》2022年第6期1651-1655,共5页Application Research of Computers

基  金:南京大学计算机软件新技术国家重点实验室开放课题项目(KFKT2021B39)。

摘  要:成词信息是一种对中文分词任务十分重要的文本特征。最新中文分词模型之一的WMSEG就是通过引入成词信息来获得最顶尖的分词性能。然而这类模型在建模时并未考虑标签之间的依赖关系,导致其分词性能特别是对未登录词的识别有所欠缺。针对这一问题,通过在学习过程中引入标签嵌入的注意力机制,提出了一种带标签注意力的成词记忆网络来增强标签之间的依赖关系以及标签和字符之间的相关性。实验结果表明,该模型在四个常用数据集上都取得了不弱于WMSEG的分词性能,同时提高了对未登录词的识别能力。Wordhood information is an extremely important contextual feature for Chinese word segmentation,and as one of the newest segmentation models,WMSEG obtains the state-of-the-art segmentation performance by incorporating the wordhood information.However,the model does not consider the label dependencies in modeling,which leads to the dissatisfactory segmentation performance,especially the recognition of out-of-vocabulary words.Aiming for the issue,this paper introduced an attention mechanism with label embedding in the learning process,and proposed a wordhood memory networks with label attention to enhance the label dependencies and the correlations between labels and characters.The experimental results show that the mo-del achieves equivalent if not better performance than WMSEG on four widely used datasets,and improves the recognition ability of out-of-vocabulary words.

关 键 词:成词信息 中文分词 标签嵌入 注意力机制 未登录词 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象