检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:罗姝匀 于娟 Luo Shuyun;Yu Juan(School of Economics and Management,Fuzhou University,Fuzhou Fujian 350108)
机构地区:[1]福州大学经济与管理学院,福建福州350108
出 处:《情报探索》2021年第7期122-128,共7页Information Research
基 金:国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。
摘 要:[目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不足与未来研究方向。[结果/结论]未来研究中,可以通过完善词典、改进词义消歧效果等方法进一步提高阿拉伯文文本预处理的效率和准确率。[Purpose/significance]The paper intends to promote the research and application of Arabic text mining and provide reference for other scholars.[Method/process]The paper summarizes the basic characteristics and grammatical rules of Arabic,and compares and analyzes Arabic text preprocessing methods and mainstream applications from four aspects of word tokenization,part-of-speech tagging,stemming and lemmatization,and points out the shortcomings of existing research and future research directions.[Result/conclusion]In future research,we can further improve the efficiency and accuracy of Arabic text preprocessing by improving dictionaries and word sense disambiguation.
关 键 词:阿拉伯文 文本预处理 阿拉伯文分词 词性标注 词干提取 词形还原
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.217.65.73