检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:姚健[1,2] 俞晓明[1] 刘悦[1] 程学旗[1] 程工[3] 刘春阳[3]
机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院大学计算机与控制学院,北京100190 [3]国家计算机网络应急技术处理协调中心,北京100029
出 处:《山西大学学报(自然科学版)》2015年第1期1-7,共7页Journal of Shanxi University(Natural Science Edition)
基 金:国家自然科学基金(No.61232010);国家973计划基金(No.2014CB340401);国家242计划基金(No.2013F099)
摘 要:基于Web的未登录词(Out-of-Vocabulary,OOV)译文挖掘过程主要包含双语摘要获取、候选多词单元提取、最佳译文提取等步骤。通过改进候选多词单元提取方法和最佳译文选择方法以获取更高的译文挖掘准确率。在候选多词单元提取方面,在层次迭代的对数似然比(LLR)基础上提出了基于内部信息层次化过滤的对数似然比方法,相比LLR方法降低了噪音比且准确率提高了5%。在最佳译文选择方面,提出了基于左右熵(LRE)邻接信息过滤候选多词集合,同时将频度-距离模型(F-D)和基于LLR的词对关联度模型相结合使译文挖掘的召回率同比提高了5%~10%。Web-based OOV(Out-of-Vocabulary)translation mining includes:collecting bilingual summary,extracting multi-word lexical units and selecting best candidate words.By improving the method of multiword lexical unit extracts and best candidate words selection,the better performance of OOV translation mining,was got.In term of multi-word lexical unit extracts,the method of hierarchical filtering based on internal information was introduced by using hierarchical iteration of Log-Likelihood Ratio(LLR),which got lower noise ratio and improved the accuracy by five percentages.In the aspect of best candidate words selection,the author used adjacency information based on Left-Right Entropy(LRE)to filter candidate multi-word set.Moreover,the method which combined Frequency-Distance(F-D)model and Word-pair Correlation model improved recall ratio of OOV translation mining to 5%~10%.
关 键 词:跨语言信息检索 未登录词 查询翻译 多词单元提取
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.147.67.245