检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:毛进[1,2] 陈子洋 Mao Jin;Chen Ziyang(Center for Studies of Information Resources,Wuhan University,Wuhan 430072,China;School of Information Management,Wuhan University,Wuhan 430072,China)
机构地区:[1]武汉大学信息资源研究中心,武汉430072 [2]武汉大学信息管理学院,武汉430072
出 处:《数据分析与知识发现》2024年第6期44-55,共12页Data Analysis and Knowledge Discovery
基 金:国家自然科学基金项目(项目编号:72174154);高校人文社会科学重点研究基地重大项目(项目编号:22JJD870005)的研究成果之一。
摘 要:【目的】探究不同深度主动学习方法对科技文献摘要的结构功能识别效果和标注成本。【方法】提出基于主动学习和序列标注的科技文献摘要结构功能识别方法,构建考虑句间上下文序列信息的SciBERTBiLSTM-CRF模型(SBCA),然后分别提出基于摘要单句和摘要全文两个维度的基于不确定性的主动学习策略,并在PubMed 20K数据集上进行实验。【结果】SBCA模型具有最佳的识别效果,与不考虑序列信息仅使用SciBERT模型相比,F1值提升了11.93个百分点。使用基于整篇摘要的最小置信度策略达到SBCA模型的最优F1值仅需使用60%数据,使用基于单句的最小置信度策略达到SBCA模型的最优F1值仅需使用65%数据。【局限】本研究中仅构建了基于不确定性的主动学习查询策略,未考虑构建其他类别的查询策略。【结论】基于深度主动学习的方法有助于在更低注释成本的前提下进行摘要结构功能识别。[Objective]This paper explores different DeepAL methods for identifying the structural function of scientific literature abstracts and their labeling costs.[Methods]Firstly,we constructed a SciBERT-BiLSTM-CRF model for the abstracts(SBCA),which utilized the contextual sequence information between sentences.Then,we developed an uncertainty active learning strategy for single sentences and full text of the abstracts.Finally,we conducted experiments on the PubMed 20K dataset.[Results]The SBCA model showed the best recognition performance and increased the F1 value by 11.93%,compared to the SciBERT model without sequence information.Using the Least Confidence strategy based on the abstracts,our SBCA model achieved its optimal F1 value with 60%of the experimental data.Using the Least Confidence strategy based on sentences,the SBCA model achieved optimal F1 value with 65%of the experimental data.[Limitations]In the future,we need to examine different active learning strategies in more fields or multi-language datasets.[Conclusions]The new model based on deep active learning could identify the structural function of scientific literature with a lower annotation cost.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33