基于Web的查询翻译中OOV译文挖掘优化  

Web-based OOV Translation Mining Optimization for Query Translation

在线阅读下载全文

作  者:姚健[1,2] 俞晓明[1] 刘悦[1] 程学旗[1] 程工[3] 刘春阳[3] 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院大学计算机与控制学院,北京100190 [3]国家计算机网络应急技术处理协调中心,北京100029

出  处:《山西大学学报(自然科学版)》2015年第1期1-7,共7页Journal of Shanxi University(Natural Science Edition)

基  金:国家自然科学基金(No.61232010);国家973计划基金(No.2014CB340401);国家242计划基金(No.2013F099)

摘  要:基于Web的未登录词(Out-of-Vocabulary,OOV)译文挖掘过程主要包含双语摘要获取、候选多词单元提取、最佳译文提取等步骤。通过改进候选多词单元提取方法和最佳译文选择方法以获取更高的译文挖掘准确率。在候选多词单元提取方面,在层次迭代的对数似然比(LLR)基础上提出了基于内部信息层次化过滤的对数似然比方法,相比LLR方法降低了噪音比且准确率提高了5%。在最佳译文选择方面,提出了基于左右熵(LRE)邻接信息过滤候选多词集合,同时将频度-距离模型(F-D)和基于LLR的词对关联度模型相结合使译文挖掘的召回率同比提高了5%~10%。Web-based OOV(Out-of-Vocabulary)translation mining includes:collecting bilingual summary,extracting multi-word lexical units and selecting best candidate words.By improving the method of multiword lexical unit extracts and best candidate words selection,the better performance of OOV translation mining,was got.In term of multi-word lexical unit extracts,the method of hierarchical filtering based on internal information was introduced by using hierarchical iteration of Log-Likelihood Ratio(LLR),which got lower noise ratio and improved the accuracy by five percentages.In the aspect of best candidate words selection,the author used adjacency information based on Left-Right Entropy(LRE)to filter candidate multi-word set.Moreover,the method which combined Frequency-Distance(F-D)model and Word-pair Correlation model improved recall ratio of OOV translation mining to 5%~10%.

关 键 词:跨语言信息检索 未登录词 查询翻译 多词单元提取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象