面向垂直领域上下文特性的少样本关系抽取方法  

A Few-Shot Relation Extraction Approach for Domain-specific Context

在线阅读下载全文

作  者:任浩 李韧[1] 杨建喜[1] 肖桥 杨小霞 蒋仕新 王笛 REN Hao;LI Ren;YANG Jianxi;XIAO Qiao;YANG Xiaoxia;JIANG Shixin;WANG Di(School of Information Science and Engineering,Chongqing Jiaotong University,Chongqing 400074,China)

机构地区:[1]重庆交通大学信息科学与工程学院,重庆400074

出  处:《中文信息学报》2025年第1期65-78,共14页Journal of Chinese Information Processing

基  金:国家自然科学基金(62003063);重庆市自然科学基金(CSTB2023NSCQ-MSX0145);重庆市教委科学技术研究项目(KJZD-M202300703)。

摘  要:现有的少样本关系抽取解决方案主要基于通用领域语料,尚未充分考虑垂直领域中存在的长文本、关系重叠等问题,面对垂直领域上下文时其关系抽取性能有待提升。针对上述问题,该文以桥梁检测领域和医疗健康领域为背景,提出了一种面向垂直领域上下文特性的少样本关系抽取方法。该方法首先通过预训练语言模型RoBERTa_chinese_base对文本进行编码,再分别在双向长短时记忆网络(BiLSTM)和实体特征提取模块中进一步提取上下文特征和实体级特征,并在特征融合的基础上,通过原型网络进行关系预测。实验结果显示,该文方法在自建的桥梁检测领域数据集Bridge-FewRel上评测结果优于对比的基线模型。在中文医疗健康领域数据集TinyRel-CM的少样本关系抽取任务上,该文方法的大部分结果优于基线模型。同时,该文方法在公有领域数据集FewRel 1.0的5-way-5-shot和10-way-5-shot任务上也取得了有竞争力的结果。The existing few-shot relation extraction methods are usually designed for the general domain corpus,failing to capture domain-specific characteristics such as long text and relation overlapping.This paper proposes a domain-specific few-shot relation extraction method applied in the bridge inspection domain,and the medical health domain.Encoded by the pre-trained language model RoBERTa_chinese_base,the text is modeled by the bidirectional long short-term memory network(BiLSTM)and the entity feature extraction module.Based on feature fusion,the relation is predicted via a prototypical network.Experimental results show that the proposed method achieves the best results on the self-built Bridge-FewRel dataset for the bridge inspection domain,and outperforms the baseline in most cases on the Chinese healthcare dataset TinyRel-CM.

关 键 词:少样本关系抽取 垂直领域 RoBERTa 原型网络 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象