基于英汉双语短语级平行语料的类别知识挖掘研究被引量：1

Research of Mining the Category Knowledge Based on English-Chinese Humanities and Social Sciences Parallel Corpus in Phrase Level

作　　者：王东波[1] 韩普[2] 沈思[2] 魏向清[3]

机构地区：[1]南京农业大学信息科学技术学院,南京210095 [2]南京大学信息管理学院,南京210093 [3]南京大学双语词典研究中心,南京210093

出　　处：《现代图书情报技术》2012年第11期40-46,共7页New Technology of Library and Information Service

基　　金：国家高技术研究发展计划(863计划)"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206);国家社会科学基金重点项目"人文社会科学汉英动态术语数据库的构建研究"(项目编号:11AYY002);江苏省研究生培养创新工程"基于异构社会网络数据的信息集成与检索研究"(项目编号:CXZZ12-0073)的研究成果之一

摘　　要：在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确定英汉双语词汇特征的性能优于单语。获取的类别知识可以直接应用到知识库、机器翻译模型的构建中,同时探究英汉两种词汇在类别知识获取过程中具体表现。The experiment of mining the category knowledge from English - Chinese humanities and social sciences parallel corpus in phrase level is performed based on the established clustering algorithm. The clustering and morphological conver- sion algorithms are determined by experimental data and specific research needs. The performance of English - Chinese bilingual word features is better than monolingual word by comparing the performance of the Chinese, English and English - Chinese word level knowledge clustering. The category knowledge is directly applied to knowledge base and machine translation system, and the English and Chinese word＇ s expression is explored in mining the category knowledge.

关键词：CSSCI英汉双语短语级平行语料Bisecting K—means Clustering算法类别知识

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于英汉双语短语级平行语料的类别知识挖掘研究被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于英汉双语短语级平行语料的类别知识挖掘研究 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于英汉双语短语级平行语料的类别知识挖掘研究被引量：1