检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:熊文新[1]
机构地区:[1]北京外国语大学中国外语教育研究中心
出 处:《图书情报工作》2013年第10期128-135,共8页Library and Information Service
基 金:教育部人文社会科学研究项目"基于语料库及对应词表的英语特异组合研究"(项目编号:09YJA740013);国家社会科学基金项目"服务信息检索的自然语言"(项目编号:11BYY051)研究成果之一
摘 要:对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。There are different understandings of Web as corpus. We try, to explore the relations between Web, corpus and bilingual parallel corpora. Inspired by the rich electronic texts available on World Wide Web, and the strategy of sublanguage in language engineering, we propose a solution to building a large-scale bilingual parallel corpus, by accumulating homogeneous documents in different domains. The large amount of texts with high quality on a restricted domain collected at each step eventually constitutes a massive general-purpose balanced data warehouse. An example is elaborated to show how to construct a domain-specific bilingual parallel corpus from the Web.
关 键 词:WEB 语料库 子语言 双语平行语料库 语言资源
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3