检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:林铄浩 陈炜 万怀宇[1] 蒋致书 赵书源 廖梦祈 张芷毓 LIN Shuohao;CHEN Wei;WAN Huaiyu;JIANG Zhishu;ZHAO Shuyuan;LIAO Mengqi;ZHANG Zhiyu(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China)
机构地区:[1]北京交通大学计算机与信息技术学院,北京100044
出 处:《中文信息学报》2025年第1期79-88,共10页Journal of Chinese Information Processing
基 金:国家重点研发计划(2021QY1502)。
摘 要:为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法利用提示模板引导大规模预训练语言模型扩展类别标签并构建知识图谱,通过图结构进行去噪和自监督数据生成;然后,采用段落采样等方式将提取的带标签数据隐式映射到分类器的参数空间中,进而在不收集无标签训练数据的情况下实现对分类空间的建模。在三个文本分类数据集上与四个基线方法相比,KE0TC能基于较少的训练语料,以较低的耗时达到较高分类性能。To alleviate the class imbalance issue in unlabeled data for zero-shot text classification task and fully utilize the reasoning ability of pre-trained language models,this paper proposes a Knowledge Enhanced Zero-shot Text Classification(KE0TC)method.This method uses prompt templates to guide large pre-trained language model to extend category labels and builds a knowledge graph,using the graph structure for denoising and self-supervised data generation.Paragraph sampling and other methods are used to map the extracted labeled data into the parameter space of the classifier,thus achieving modeling of the classification space without collecting unlabeled training data.Compared with four baseline models on three text classification datasets,the proposed method achieves higher classification performance with lower time-consuming and less corpus.
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.66