检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘盼 郭延明 雷军 老明瑞 李国辉[1] LIU Pan;GUO Yanming;LEI Jun;LAO Mingrui;LI Guohui(College of Systems Engineering,National University of Defense Technology,Changsha 410000,China;LIACS Media Lab,Leiden University,Leiden 2333CA,The Netherlands)
机构地区:[1]国防科技大学系统工程学院,长沙410000 [2]莱顿大学LIACS媒体实验室,莱顿2333CA
出 处:《计算机科学》2023年第3期276-281,共6页Computer Science
基 金:国家自然科学基金(61806218,71673293);湖南省自然科学基金(2019JJ50722)。
摘 要:相对于英文天然由单词组成而言,中文由于没有分词符,汉字之间的组词更灵活,在命名实体识别时,其边界更加难以确定。当前的主流方法将命名实体识别任务转化为序列标注任务,文中采用BIOES标注方案,针对预测的标签序列进行研究。通过单独比较实体头部标签B或尾部标签E,计算实体边界准确率,结果表明提高边界准确率能够进一步提升实体识别准确率;对具有连续标签的实体边界进行拓展和重定位,采用实体最后一个字符的类型标签对实体类型进行纠偏,利用分词信息对标签不完整的实体进行填充;最后,提出增加边界标记的BIO+ES标注方案,用于区分实体边界的非实体字符,以进一步提升中文命名实体识别的性能。Compared with English text which is naturally composed of words,Chinese text has no word delimiters,so the combination of Chinese characters is more flexible,and it’s more difficult to determine the entity boundaries in Chinese named entity recognition(NER).Current mainstream methods transform the NER task into a sequence labeling task.This paper studies the predicted label sequence under the BIOES tag scheme and calculates the entity boundary accuracy by separately considering the entity head label B or tail label E,which shows that increasing the boundary accuracy can further improve the accuracy of entity recognition.We expand the boundaries of entities with continuous labels,use the label type of the last character of the entity to correct the entity type,and use the word segmentation information to fill in the entity with incomplete labels.Finally,this paper proposes a BIO+ES labeling scheme that adds boundary labels to distinguish non-entity characters at entity boundaries and further improves the performance of Chinese NER.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7