基于特征比较和最大熵模型的统计机器翻译错误检测

Error Detection for Statistical Machine Translation Based on Feature Comparison and Maximum Entropy Model Classifier

出　　处：《北京大学学报（自然科学版）》2013年第1期81-87,共7页Acta Scientiarum Naturalium Universitatis Pekinensis

基　　金：国家自然科学基金(61100085);陕西省教育厅专项科研计划项目(11JK1029);西安理工大学青年科技研究计划项目(105211017)资助

摘　　要：首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率,分析其对错误检测性能的影响;然后,将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合,利用最大熵分类器预测翻译错误,并在汉英NIST数据集上进行实验验证和比较。实验结果表明,不同的单词后验概率对分类错误率的影响是显著的,并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率,提高译文错误预测性能。The authors firstly introduce three typical word posterior probabilities （WPP） for error detection and classification, which are fixed position WPP, sliding window WPP, and alignment-based WPP, and analyzes their impact on the detection performance. Then each WPP feature is combined with three linguistic features （Word, POS and LG Parsing knowledge） over the maximum entropy classifier to predict the translation errors. Experimental results on Chinese-to-English NIST datasets show that the influences of different WPP features on the classification error rate （CER） are significant, and the combination of WPP with linguistic features can significantly reduce the CER and improve the prediction capability of the classifier.

关键词：错误检测词后验概率语言学特征最大熵分类器

分类号：TP391.2[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征比较和最大熵模型的统计机器翻译错误检测

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征比较和最大熵模型的统计机器翻译错误检测

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索