检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:诺明花[1,2] 吴健[1] 刘汇丹[1,2] 丁治明[1]
机构地区:[1]中国科学院软件研究所,北京100190 [2]中国科学院研究生院,北京100049
出 处:《中文信息学报》2011年第3期112-117,共6页Journal of Chinese Information Processing
基 金:中国科学院"西部行动计划高新技术项目"资助
摘 要:该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。This paper describes methods to extract Tibetan phrase translation for translation-ready Chinese phrases from the Tibetan corpus on laws and regulations and official documents.So far,the widely used phrase extraction methods depend heavily on the result of word alignment or additional resources like part-of-speech or syntactic analysis and so forth.Taking account of inadequate resources in Tibetan at present,this paper proposes Tibetan words string Statistical Method(TSM) and Tibetan words sequence intersection algorithm(TIA) to extract Tibetan phrase.TSM works well on 1-1 translation with over 90% accuracy,but miss the 1-n translation.TIA can extract Tibetan phrase not only continuous or discontinuous but also 1-1 translation or 1-n translation.The experiments show TIA achieves 81% accuracy for 1-n translation.
关 键 词:藏文语块 短语译文获取 藏文信息处理 中文信息处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13