基于多颗粒度文本表征的中文命名实体识别方法  被引量:4

Chinese Named Entity Recognition Based on Text Representation Multi-granularty

在线阅读下载全文

作  者:田雨 张桂平[1] 蔡东风[1] 陈华威 宋彦 TIAN Yu;ZHANG Guiping;CAI Dongfeng;CHEN Huawei;SONG Yan(Human-Computer Intelligence Research Center,Shenyang Aerospace University,Shenyang,Liaoning 110136,China;School of Data Science,The Chinese University of HongKong(Shenzhen),Shenzhen,Guangdong 518172,China)

机构地区:[1]沈阳航空航天大学人机智能研究中心,辽宁沈阳110136 [2]香港中文大学(深圳)数据科学学院,广东深圳518172

出  处:《中文信息学报》2022年第4期90-99,共10页Journal of Chinese Information Processing

基  金:国家自然科学基金(U1908216);辽宁省重点研发计划(2019JH2/10100020)。

摘  要:中文命名实体识别常使用字符嵌入作为神经网络模型的输入,但是中文没有明确的词语边界,字符嵌入的方法会导致部分语义信息的丢失。针对此问题,该文提出了一种基于多颗粒度文本表征的中文命名实体识别模型。首先,在模型输入端结合了字词表征,然后借助N-gram编码器挖掘N-gram中潜在的成词信息,有效地联合了三种不同颗粒度的文本表征,丰富了序列的上下文表示。该文在Weibo、Resume和OntoNotes4数据集上进行了实验,实验结果的F_(1)值分别达到了72.41%、96.52%、82.83%。与基准模型相比,该文提出的模型具有更好的性能。Chinese named entity recognition utilizes character embedding as the input of neural network models,which may give rise to the loss of certain semantic information since there is no clear word boundary in Chinese.To figure out the aforementioned issue,this paper proposes an entity recognition method based on multi-granular text representations.Firstly,the char and word representation are combined as the model input.Then the N-gram encoder is exploited to explore the potential word information in the N-gram which enriches the contextual representation of the sequence.The experimental results on the Weibo,Resume and OntoNotes4 dataset outperform the baseline and reach 72.41%,96.52%and 82.83%respectively.

关 键 词:中文命名实体识别 多颗粒度文本表征 N-GRAM 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象