检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘琼昕 方胜[2] 牛文涛 LIU Qiongxin;FANG Sheng;NIU Wentao(Beijing Engineering Applications Research Center on High Volume Language Information Processing and Cloud Computing,Beijing 100081,China;School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China)
机构地区:[1]北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081 [2]北京理工大学计算机学院,北京100081
出 处:《北京理工大学学报》2025年第3期308-320,共13页Transactions of Beijing Institute of Technology
基 金:国家重点研发计划项目(2020AAA0104903);国家自然科学基金资助项目(62072039)。
摘 要:针对远程监督关系抽取中文本语义信息表征不足导致噪声识别能力有限和信息传递不足导致长尾关系学习不充分的问题,提出了一种将预训练模型(BERT)集成到多实例学习中的两阶段框架,利用预训练语言模型学习文本语义以识别和缓解噪声,并在框架中设计了双模态编码器自动学习实体类型和关系的信息传播模式以解决长尾问题.该方法在GDS数据集上的AUC值为0.912,P@100与P@200值分别为100.0%和98.7%;在NYT-570K数据集上的长尾指标Hits@K较先前的先进模型均有提升.在这两个广泛使用的数据集上的实验结果表明,该方法在去噪和长尾关系抽取方面均取得了显著提升.To solve the problems of insufficient semantic information representation in text and inadequate information transmission,leading to limited noise recognition capability and insufficient learning of long-tail relationships in distant supervised relation extraction,in this paper,a two-stage framework was proposed to integrate a pre-trained model(BERT)into multi-instance learning.Firstly,a pre-trained language model was utilized to learn text semantics so as to identify and mitigate noise.And than,a dual-modal encoder was designed within the framework to automatically learn the propagation patterns of entity types and relationships,tackling the long-tail problem.Experimental results on two widely-used datasets,NYT-10 and GDS,demonstrate that the proposed method can achieve significant improvements in both noise reduction and long-tail relation extraction.
分 类 号:V211[航空宇航科学与技术—航空宇航推进理论与工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15