Web、语料库与双语平行语料库的建设  被引量:8

Web,Corpus and the Building of Bilingual Parallel Corpora

在线阅读下载全文

作  者:熊文新[1] 

机构地区:[1]北京外国语大学中国外语教育研究中心

出  处:《图书情报工作》2013年第10期128-135,共8页Library and Information Service

基  金:教育部人文社会科学研究项目"基于语料库及对应词表的英语特异组合研究"(项目编号:09YJA740013);国家社会科学基金项目"服务信息检索的自然语言"(项目编号:11BYY051)研究成果之一

摘  要:对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。There are different understandings of Web as corpus. We try, to explore the relations between Web, corpus and bilingual parallel corpora. Inspired by the rich electronic texts available on World Wide Web, and the strategy of sublanguage in language engineering, we propose a solution to building a large-scale bilingual parallel corpus, by accumulating homogeneous documents in different domains. The large amount of texts with high quality on a restricted domain collected at each step eventually constitutes a massive general-purpose balanced data warehouse. An example is elaborated to show how to construct a domain-specific bilingual parallel corpus from the Web.

关 键 词:WEB 语料库 子语言 双语平行语料库 语言资源 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象