乌兹别克语词干提取算法的比较研究被引量：2

A Comparative Study of Uzbek Stemming Algorithms

作　　者：吾买尔江·买买提明古丽尼格尔·阿不都外力买合木提·买买提[1,2] 卡哈尔江·阿比的热西提[1,2] 吐尔根·依布拉音[1,2] WUMAIERJIANG Maimaitiming;GULINIGEER Abuduwaili;MAIHEMUTI Maimaiti;KAHAERJIANG Abiderexiti;TUERGEN Yibulayin(School of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-Language Information Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)

机构地区：[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术重点实验室,新疆乌鲁木齐830046

出　　处：《中文信息学报》2020年第1期45-50,共6页Journal of Chinese Information Processing

基　　金：国家语委科研项目(ZDI135-54);国家自然科学基金(61762084,61662077,61462083);新疆维吾尔自治区重点实验室开放课题(2018D04019)。

摘　　要：黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型。实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升。As a basic task agglutinative languages processing,word stemming would directly influence the performance of other tasks.The existing Uzbek word stemming task still relies on rule-based approaches.This paper presents the application Conditional Random Field(CRF)and Bidirectional Gated Recurrent Unit(Bi-GRU)in this task,in which the minimum division unit is the character.The experimental results show that the proposed models,which are based on sequence labeling significantly improves the performance compared with the rule-based method.

关键词：乌兹别克语词干提取序列标注

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

乌兹别克语词干提取算法的比较研究被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

乌兹别克语词干提取算法的比较研究 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

乌兹别克语词干提取算法的比较研究被引量：2