基于MapReduce的中文词性标注CRF模型并行化训练研究  被引量:5

A Parallel Training Research of Chinese Part-of-Speech Tagging CRF Model Based on MapReduce

在线阅读下载全文

作  者:刘滔[1] 雷霖[1] 陈荦[1] 熊伟[1] 

机构地区:[1]国防科学技术大学电子科学与工程学院,长沙410073

出  处:《北京大学学报(自然科学版)》2013年第1期147-152,共6页Acta Scientiarum Naturalium Universitatis Pekinensis

基  金:新闻出版重大科技工程项目(1041STC40889/01-2);863计划(2011AA120300)资助

摘  要:针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce框架的条件随机场模型训练并行化方法,设计了条件随机场模型特征提取及参数估计的并行算法,实现了迭代缩放算法的并行。实验表明,所提出的并行化方法在保证训练结果正确性的同时,大大减少了训练时间,效率得到较大提升。Conditional random field (CRF) model bears a major drawback of low training efficiency for large-scale data processing. A parallel method of conditional random field model training based on MapReduce is proposed to solve the problem. The method designs parallel algorithm for feature selection and parameters estimation of CRF model to achieve a parallel iterative scaling algorithm. Experiments show that the method improves the efficiency and reduces time cost significantly while guaranteeing the training result correctness.

关 键 词:词性标注 条件随机场 MAPREDUCE 并行 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象