基于委员会投票的主动学习中文分词方法  

A Chinese Word Segmentation Method of Active Learning Based on Committee Vote

在线阅读下载全文

作  者:顾磊[1] 梁喜涛 

机构地区:[1]南京邮电大学计算机学院

出  处:《图书馆学研究》2016年第1期36-40,70,共6页Research on Library Science

基  金:教育部人文社会科学研究青年基金项目"基于中文信息处理技术的古籍整理研究"(项目编号:12YJC870008);江苏省社科研究文化精品课题"基于文字图像分析技术的珍贵古籍数字化方法的研究"(项目编号:12SWC-030)的阶段性研究成果

摘  要:主动学习方法可以减少人工标注海量数据时的代价,因此在中文信息处理领域中具有非常重要的作用。文章提出了一种基于委员会投票的主动学习分词方法。该方法的核心思想就是利用Bagging算法构建委员会并对其进行投票,然后采用新的样本选择策略,选择样本进行人工标注。最后采用主动学习中文分词方法与利用投票选择样本的主动学习中文分词方法在3个数据集上进行了实验,实验结果表明文章提出的方法不仅可以用于中文分词,而且能够取得更好的分词效果。Active learning can reduce the cost of manual tagging of massive data,so it has a very important role in the field of Chinese information processing. In this paper,a Chinese word segmentation method of active learning based on committee vote is proposed. This proposed approach can apply the Bagging Algorithm to constructing committee and voting,and use a novel sample selection strategy to select several samples to tag manully. Finally,to investigate the effectiveness of our method,experiments are done on three datasets. Experimental results show that our approach can acquire the better results than a Chinese word segmentation method of active learning based on vote entropy.

关 键 词:委员会投票 中文分词 主动学习 

分 类 号:G254.1[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象