检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:彭飞[1,2] 吐尔根.依布拉音 艾山.吾买尔[1,2] 米尔夏提.力提甫
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术重点实验室,新疆乌鲁木齐830046
出 处:《新疆大学学报(自然科学版)》2017年第3期316-321,共6页Journal of Xinjiang University(Natural Science Edition)
基 金:国家自然科学基金项目(61463048;61462083;61331011);国家重点基础研究发展计划(973)项目(2014cb340506)
摘 要:面向汉文维吾尔文(以下简称汉维)双语科技术语抽取这一应用目标,本文提出新闻科技领域的汉维可比语料库设计方案并进行实验.将网络采集的汉维语料利用机器翻译系统进行初加工后映射到向量空间中并使用LSI算法计算出各向量间的相关性,利用计算后的向量建立索引并依次计算出源文本与候选文本的相似值.本文设计两种实验进行对比,对选取的可比语料进行评估、筛选,最终达到构建汉维可比语料库的目的.In order to realize the practical requirement of Chinese-Uyghur bilingual scientific and technical terms, this paper proposes a Chinese-Uyghur comparable corpus design for the field of news, science and technology and carries out a feasibility experiment. It is first proposed to use more mature Chinese-Uyghur machine translation system to establish the Chinese-Uyghur comparable corpus. We use the Chinese-Uyghur corpus collected on the network to map the collected corpus to the vector space and use the LSI algorithm to compute the correlation between the words. The calculated text is indexed as candidate text and then the similarity between the source text and the candidate text is calculated in turn. Furthermore, two experimental schemes are designed and compared, and the selected corpus is evaluated and screened to achieve the goal of constructing the Chinese-Uyghur comparable corpus.
关 键 词:可比语料库 汉维可比语料库构建 双语术语抽取 LSI
分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222