检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:古丽尼格尔·阿不都外力 吐尔根·依布拉音[1,2] 卡哈尔江·阿比的热西提[1,2] 王路路 GULINIGEER Abudouwaili;TUERGEN Yibulayin;KAHAERJIANG Abiderexiti;WANG Lulu(College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;Xinjiang Laboratory of Multi-LanguageInformation Technology,Xinjiang University,Urumqi,Xinjiang 830046,China)
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046
出 处:《中文信息学报》2019年第8期60-66,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金(61762084,61662077,61462083);国家语委科研项目(ZDI 135-54);国家重点研发计划(2017YFB1002103)
摘 要:词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。Stemming is a basic research in Uyghur Natural-language Processing(NLP),which is still challenged by issues of over-segmentation,non-segmentation and ambiguity segmentation in Uyghur stemming.This paper propose a neural network model of Bi-LSTM-CRF,which is based on bidirectional(Bi)long short-term memories(LSTMs)and conditional random fields(CRFs).It uses Uyghur character as minimum language unit to extract Uyghur character features,phonological features and phonetic features,and use them as the candidate features.The stemming result shows that an F-score of 88% for the Bi-LSTM-CRF model of Uyghur stemming,with further1.8%increase after incorporating the manual features.
关 键 词:维吾尔语 词干提取 Bi-LSTM-CRF
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249