基于边界定位与纠偏的中文命名实体提取规则研究  被引量:1

Study on Chinese Named Entity Extraction Rules Based on Boundary Location and Correction

在线阅读下载全文

作  者:刘盼 郭延明 雷军 老明瑞 李国辉[1] LIU Pan;GUO Yanming;LEI Jun;LAO Mingrui;LI Guohui(College of Systems Engineering,National University of Defense Technology,Changsha 410000,China;LIACS Media Lab,Leiden University,Leiden 2333CA,The Netherlands)

机构地区:[1]国防科技大学系统工程学院,长沙410000 [2]莱顿大学LIACS媒体实验室,莱顿2333CA

出  处:《计算机科学》2023年第3期276-281,共6页Computer Science

基  金:国家自然科学基金(61806218,71673293);湖南省自然科学基金(2019JJ50722)。

摘  要:相对于英文天然由单词组成而言,中文由于没有分词符,汉字之间的组词更灵活,在命名实体识别时,其边界更加难以确定。当前的主流方法将命名实体识别任务转化为序列标注任务,文中采用BIOES标注方案,针对预测的标签序列进行研究。通过单独比较实体头部标签B或尾部标签E,计算实体边界准确率,结果表明提高边界准确率能够进一步提升实体识别准确率;对具有连续标签的实体边界进行拓展和重定位,采用实体最后一个字符的类型标签对实体类型进行纠偏,利用分词信息对标签不完整的实体进行填充;最后,提出增加边界标记的BIO+ES标注方案,用于区分实体边界的非实体字符,以进一步提升中文命名实体识别的性能。Compared with English text which is naturally composed of words,Chinese text has no word delimiters,so the combination of Chinese characters is more flexible,and it’s more difficult to determine the entity boundaries in Chinese named entity recognition(NER).Current mainstream methods transform the NER task into a sequence labeling task.This paper studies the predicted label sequence under the BIOES tag scheme and calculates the entity boundary accuracy by separately considering the entity head label B or tail label E,which shows that increasing the boundary accuracy can further improve the accuracy of entity recognition.We expand the boundaries of entities with continuous labels,use the label type of the last character of the entity to correct the entity type,and use the word segmentation information to fill in the entity with incomplete labels.Finally,this paper proposes a BIO+ES labeling scheme that adds boundary labels to distinguish non-entity characters at entity boundaries and further improves the performance of Chinese NER.

关 键 词:中文命名实体识别 标注方案 实体提取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象