基于同族专利获取双语语料的方法研究——以获取汉英双语语料为例  被引量:1

The Method of Bilingual Corpus Extraction Based on Patent Family--- Case study for English-Chinese Bilingual Corpus

在线阅读下载全文

作  者:霍翠婷[1] 吴琳[1] 

机构地区:[1]中国科学技术信息研究所,北京100038

出  处:《数字图书馆论坛》2009年第11期67-71,共5页Digital Library Forum

基  金:本文系国家科技支撑计划项目“多语言信息服务环境关键技术研究与应用”(2006BAH03802)和“科技文献信息服务系统应用示范”(2006BAH03806)的研究成果之一.

摘  要:双语语料库在机器翻译、跨语言信息检索以及翻译词典编纂等自然语言处理领域有着越来越重要的用途。该研究利用同族专利文献信息作为双语语料的来源,探讨了基于同族专利获取双语语料的可行性,以获取汉英双语语料为实例提出了双语语料的获取流程,同时进行双语对译部分的对齐规则的研究,从而构建出科技领域的平行双语语料库。最后,还阐述了该方法的相关注意事项以及应用前景。Bilingual corpus have become increasingly important valuable resource for machine translation, cross-language information retrieval, translation dictionary and other applications. This paper describes a new method for bilingual corpus extraction based on patent family and takes example for English-Chinese bilingual corpus. First, it discusses the feasibility of this approach and an available process to extract high quality bilingual corpus from two selected patent database is designed. Then, the English-Chinese equivalent units are obtained through alignment role from bilingual corpus which extracted in order to build the Chinese-English bilingual parallel corpus for a specific science and technology area. Finally, it describes the notes and application prospects of the method.

关 键 词:同族专利 双语语料 

分 类 号:G306[文化科学] TP391.2[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象