检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孙维阳 刘继[1] SUN Weiyang;LIU Ji
机构地区:[1]新疆财经大学统计与数据科学学院,新疆乌鲁木齐830012
出 处:《信息技术与信息化》2022年第2期13-16,共4页Information Technology and Informatization
基 金:国家自然科学基金项目(编号:71762028);新疆维吾尔自治区高校科研计划项目(编号:XJEDU2019SI006);新疆财经大学研究生科研创新项目立项(编号:XJUFE2021D017)阶段性成果。
摘 要:深度学习中的自然语言处理受到研究者广泛关注,但有时大量数据利用机器标注会影响处理效果,采用人工标注又会消耗大量的时间。通过主动学习可以降低数据标注的成本,但是主动学习会面临着倾向于选择长序列,这样的操作通常就会增加注释者的注释负担。传统的主动学习查询策略需要在模型中进行修改并生成一些额外的样本选择信息,这会增加开发者的工作量增加模型的训练时间。基于此,提出了基于CRF的命名实体识别的主动学习策略(lowest token probability,LTP),结合CRF的输入和输出来选择信息实例,通过结合全局信息和局部信息去寻找最有可能的序列分配,基于LTP的主动学习策略能够更有效地去处理短序列语料文本。最后针对网络舆情热点事件,运用模型比较基于LTP策略和传统主动学习策略的效果,实验表明基于 LTP 的主动学习策略,它的性能是好于传统的主动学习策略。
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.118.82.212