检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:任浩 李韧[1] 杨建喜[1] 肖桥 杨小霞 蒋仕新 王笛 REN Hao;LI Ren;YANG Jianxi;XIAO Qiao;YANG Xiaoxia;JIANG Shixin;WANG Di(School of Information Science and Engineering,Chongqing Jiaotong University,Chongqing 400074,China)
机构地区:[1]重庆交通大学信息科学与工程学院,重庆400074
出 处:《中文信息学报》2025年第1期65-78,共14页Journal of Chinese Information Processing
基 金:国家自然科学基金(62003063);重庆市自然科学基金(CSTB2023NSCQ-MSX0145);重庆市教委科学技术研究项目(KJZD-M202300703)。
摘 要:现有的少样本关系抽取解决方案主要基于通用领域语料,尚未充分考虑垂直领域中存在的长文本、关系重叠等问题,面对垂直领域上下文时其关系抽取性能有待提升。针对上述问题,该文以桥梁检测领域和医疗健康领域为背景,提出了一种面向垂直领域上下文特性的少样本关系抽取方法。该方法首先通过预训练语言模型RoBERTa_chinese_base对文本进行编码,再分别在双向长短时记忆网络(BiLSTM)和实体特征提取模块中进一步提取上下文特征和实体级特征,并在特征融合的基础上,通过原型网络进行关系预测。实验结果显示,该文方法在自建的桥梁检测领域数据集Bridge-FewRel上评测结果优于对比的基线模型。在中文医疗健康领域数据集TinyRel-CM的少样本关系抽取任务上,该文方法的大部分结果优于基线模型。同时,该文方法在公有领域数据集FewRel 1.0的5-way-5-shot和10-way-5-shot任务上也取得了有竞争力的结果。The existing few-shot relation extraction methods are usually designed for the general domain corpus,failing to capture domain-specific characteristics such as long text and relation overlapping.This paper proposes a domain-specific few-shot relation extraction method applied in the bridge inspection domain,and the medical health domain.Encoded by the pre-trained language model RoBERTa_chinese_base,the text is modeled by the bidirectional long short-term memory network(BiLSTM)and the entity feature extraction module.Based on feature fusion,the relation is predicted via a prototypical network.Experimental results show that the proposed method achieves the best results on the self-built Bridge-FewRel dataset for the bridge inspection domain,and outperforms the baseline in most cases on the Chinese healthcare dataset TinyRel-CM.
关 键 词:少样本关系抽取 垂直领域 RoBERTa 原型网络
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3