一种面向Web的英汉平行语料库的构建方法  被引量:2

A Web-based Construction Method of English-Chinese Parallel Corpus

在线阅读下载全文

作  者:徐润华[1] 王东波[2] XU Run-hua;WANG Dong-bo(Jinling Institute of Technology, Nanjing 211169, China;Nanjing Agricultural University, Nanjing 210095, China)

机构地区:[1]金陵科技学院人文学院,江苏南京210038 [2]南京农业大学信息管理学院,江苏南京210095

出  处:《金陵科技学院学报(社会科学版)》2021年第4期51-56,共6页Journal of Jinling Institute of Technology(Social Sciences Edition)

基  金:江苏高校哲学社会科学研究基金项目“基于CSSCI的组块级汉英平行语料库构建及知识挖掘研究”(2018SJA0473);金陵科技学院高层次人才科研启动基金项目“大数据环境下面对论文相似性检测的学术资源预处理研究”(jitb202137)。

摘  要:随着自然语言处理领域各项研究的发展,平行语料库作为支撑自然语言处理技术的基础资源,发挥着越来越重要的作用。利用Web中的海量信息资源,采取信息抽取的方法,自动获取英汉双语平行语料资源。在获取过程中,首先确定抓取网站和制定词表,然后利用网络资源抓取工具GUN Wget自动获取网页中的英汉双语句子对资源,在对获得的平行句子对资源进行清洗和去重的基础上,利用条件随机场模型对汉语句子进行自动分词并导入数据库,最终完成大规模英汉双语平行语料库的构建。With the development of various researches in the field of natural language processing,parallel corpus is playing an increasingly important role as a basic resource supporting natural language processing technology.This study automatically obtains English-Chinese bilingual parallel corpus resources by using the method of information extraction based on massive information resources in the Web.In the process of obtaining,first determine the crawling websites and formulate a vocabulary,then use the crawling tool GUN Wget of network resources to automatically obtain the English-Chinese bilingual sentence pair resourcesin Web pages.On the basis of cleaning and removing duplication for the obtained parallel sentence pairs,the conditional random field model is used to automatically segment Chinese sentences and import them into the database.Finally,the construction of large-scale English-Chinese bilingual parallel corpus is completed.

关 键 词:平行语料库 GUN Wget软件 条件随机场 英汉双语 Web 

分 类 号:H146[语言文字—汉语] TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象