基于置信度的藏文人名识别的主动学习模型研究被引量：4

Confidence Based Active Learning Model for Tibetan Person Name Recognition

作　　者：王志娟[1,2] 刘飞飞赵小兵宋伟[1] WANG Zhijuan;LIU Feifei;ZHAO Xiaobing;SONG Wei(School of Electronics Engineering,Minzu University of China,Beijing 100081,China;National Language Resource Monitoring &Research Center ofMinority Languages,Beijing100081,China;Tomorrow Advancing Life Education Group,Beijing100080,China)

机构地区：[1]中央民族大学信息工程学院,北京100081 [2]国家语言资源监测与研究少数民族语言中心,北京100081 [3]好未来教育科技集团,北京100080

出　　处：《中文信息学报》2019年第8期53-59,共7页Journal of Chinese Information Processing

基　　金：国家自然科学基金(61331013,61501529)

摘　　要：训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。To alleviate the issue of labeling cost of training data for low resource languages,the active learning is a promising method by selecting the informative data without redundancy.Four active learning methods based on the confidence are proposed,with the parameters decided empirically.The experimental results:selecting the data with confidence below 0.7 and 6 iteration of labeling with up to 3.2 MB training data,we can achieve 0.88 F-measure for Tibetan name recognition.Compare with the 10 MB training data for CRF model to achieve the same performance(with no more than 0.01% difference),the active learning approach reduces the annotation scale by 66%.

关键词：藏文人名识别主动学习置信度

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于置信度的藏文人名识别的主动学习模型研究被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于置信度的藏文人名识别的主动学习模型研究 被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于置信度的藏文人名识别的主动学习模型研究被引量：4