检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:诺明花[1,2] 张立强[1] 刘汇丹[1,2] 吴健[1] 丁治明[1]
机构地区:[1]中国科学院软件研究所,北京100190 [2]中国科学院研究生院,北京100049
出 处:《中文信息学报》2011年第2期105-110,121,共7页Journal of Chinese Information Processing
基 金:中国科学院"西部行动计划高新技术项目"资助(KGCX2-YW-512)
摘 要:该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。This paper describes a method to extract phrase pairs from domain-specific Chinese-Tibetan bilingual corpus of laws,regulations and official documents.So far,widely used phrase extraction methods heavily depend on the result of word alignment or additional resources like part-of-speech or syntactic analysis and so forth.Taking account of inadequate resources in Tibetan at present,this paper proposes a two-phase Chinese-Tibetan phrase pairs extraction method.The first step is to extract the Chinese phrase(multi-word chunk) using Nagao's Algorithm and Substring Reduction Algorithm.The second step is to extract the candidate Tibetan translation for translation-ready Chinese phrase.This paper proposes Tibetan words sequence intersection algorithm(TIA) to extract Tibetan phrase.TIA works well on both 1-1 translation and 1-n translation(either continuous or discontinuous) Tibetan phrase.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13