检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:原伟
机构地区:[1]上海外国语大学博士后流动站,上海200083 [2]信息工程大学洛阳校区,河南洛阳471003
出 处:《电脑知识与技术》2018年第2期212-215,共4页Computer Knowledge and Technology
基 金:国家社科基金项目(14CYY051); 中国博士后面上资助项目(2017M610268)
摘 要:网络语料库是大数据时代语料库发展的重要方向,GICR作为俄语大型动态网络语料库的最重要代表之一具有较高的研究价值与借鉴意义。通过对GICR语料库总体设计、语料采集方法、处理手段和标注体系的分析述评,深入讨论了该语料库的在语言信息处理及语言学研究领域的应用研究,论述了该语料库的特点与独特优势,对俄语网络语料库研究的深入开展奠定了初步基础。In the era of large data Web as corpus is an important research direction of corpus linguistics. As one of the most important representatives of Russian web corpora General Internet Corpus of Russian(GIRC) has a significant research value. This paper discusses the main methods of GIRC for texts collection, cleaning, organization and annotation,discusses the characteristics and unique advantages of GIRC, analyses its applications in linguistic studies and natural language processing.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.219.93.1