Web学术语料库的特征及其应用初探  被引量:1

Features and Applications of WebCorp Linguist's Search Engine

在线阅读下载全文

作  者:罗志高[1] 

机构地区:[1]重庆工商大学外语学院,重庆400067

出  处:《外国语文》2015年第5期83-86,共4页Foreign Languages and Literature

基  金:重庆市教育科学"十二五"规划2012年度课题"重庆市高校外语人才培养与区域经济快速国际化的适应笥研究"(2012-GX-146)的阶段性成果

摘  要:第一代网络语料库(Web Corp)以海量网络语料而著称,然而Web Corp有其本身固有缺陷,因此,第二代网络语料库Web学术语料库(Web Corp LSE)应运而生,它的规模达到100亿词,是一个网络语料库检索系统,有自己独立的搜索引擎、独特爬虫工具、索引工具、标注工具、离线处理工具等,其"网络文本"格式全、质量高、语料新颖、规模巨大。Web学术语料库在新词用法、短语创新用法、词语历时分析、甄别歧义研究等方面具有独特优势,弥补了传统语料库的不足。The first generation web corpus Web Corp has its intrinsic limitations. In the light of Web Corp,here comes the second generation web corpus,Web Corp Linguist 's Search Engine( Web Corp LSE),which is characterized of an independent commercial search engine,smart crawlers,web text extractors,indexers,tokenizers,parsers,off- line tools,etc. Web Corp LSE gives a new definition of the web text,covering Internet documents of HTML,PDF,PS,WORD,RTF and TXT formats. With the combined advantages of web search engine,dynamic Internet and traditional corpora,it has its own unique roles in the linguistic research of neologism,phrase creativity,disambiguating search terms,diachronic analyses,etc.,which makes Web Corp LSE a good complement to the traditional corpora.

关 键 词:Web学术语料库 网络 语料 新颖 

分 类 号:H005[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象