检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京邮电大学计算机学院
出 处:《图书馆学研究》2016年第1期36-40,70,共6页Research on Library Science
基 金:教育部人文社会科学研究青年基金项目"基于中文信息处理技术的古籍整理研究"(项目编号:12YJC870008);江苏省社科研究文化精品课题"基于文字图像分析技术的珍贵古籍数字化方法的研究"(项目编号:12SWC-030)的阶段性研究成果
摘 要:主动学习方法可以减少人工标注海量数据时的代价,因此在中文信息处理领域中具有非常重要的作用。文章提出了一种基于委员会投票的主动学习分词方法。该方法的核心思想就是利用Bagging算法构建委员会并对其进行投票,然后采用新的样本选择策略,选择样本进行人工标注。最后采用主动学习中文分词方法与利用投票选择样本的主动学习中文分词方法在3个数据集上进行了实验,实验结果表明文章提出的方法不仅可以用于中文分词,而且能够取得更好的分词效果。Active learning can reduce the cost of manual tagging of massive data,so it has a very important role in the field of Chinese information processing. In this paper,a Chinese word segmentation method of active learning based on committee vote is proposed. This proposed approach can apply the Bagging Algorithm to constructing committee and voting,and use a novel sample selection strategy to select several samples to tag manully. Finally,to investigate the effectiveness of our method,experiments are done on three datasets. Experimental results show that our approach can acquire the better results than a Chinese word segmentation method of active learning based on vote entropy.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43