检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:蒋盛益[1,2] 李珊珊 符斯慧 林楠铠 JIANG Shengyi;LI Shanshan;FU Sihui;LIN Nankai(School of Information Science and Technology,Guangdong University of Foreign Studies,Guangzhou 510006;Guangzhou Key Laboratory of Multilingual Intelligent Processing,Guangdong University of Foreign Studies,Guangzhou 510006)
机构地区:[1]广东外语外贸大学信息科学与技术学院,广州510006 [2]广东外语外贸大学广州市非通用语种智能处理重点实验室,广州510006
出 处:《模式识别与人工智能》2020年第6期530-541,共12页Pattern Recognition and Artificial Intelligence
基 金:国家自然科学基金项目(No.61572145);广州市科技计划项目(No.202002030227)资助。
摘 要:随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势.As the penetration rate of Indonesian and Malay rises,it is significant to carry out information processing on massive texts of these two languages.Extensive research is conducted on Indonesian and Malay.However,as low-resource languages,Indonesian and Malay draw less attention than common languages.Thus,the deep learning methods cannot be fully utilized.In this paper,research on Indonesian and Malay morphological analysis,syntactic parsing,machine translation,spelling check etc.,is analyzed and summarized.In the most research findings,algorithms cannot be compared objectively due to their different corpus scales and evaluation metrics.Finally,problems and future directions of natural language processing on Indonesian and Malay are discussed with the consideration of the existing open language resources in various fields.
关 键 词:印尼语 马来语 黏着语 低资源语言 自然语言处理
分 类 号:H631.2[语言文字] H631.1[自动化与计算机技术—计算机应用技术] TP391.1[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30