词干提取

作品数:43被引量:114H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:早克热·卡德尔吐尔根·依布拉音艾山吾买尔艾山·吾买尔吴金星更多>>
相关机构:新疆大学内蒙古大学东北师范大学中国科学院更多>>
相关期刊:《现代电子技术》《情报探索》《桂林电子科技大学学报》《计算机应用与软件》更多>>
相关基金:国家自然科学基金国家社会科学基金国家语委科研项目国家科技支撑计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于词素切分的低资源语言文本分类
《计算机工程与设计》2025年第2期530-536,共7页沙尔旦尔·帕尔哈提 木塔力甫·沙塔尔 阿力木江·亚森 阿布都热合曼·卡的尔 
国家自然科学基金项目(61662073、62241208);国家社会科学基金项目(23XMZ060);新疆财经大学校级科研基金项目(2022XGC022、2022XGC049)。
针对维-哈-柯等派生类低资源语言文本分类中特征空间维数巨增、特征提取效率低等问题,提出一种基于Bi-LSTM_CRF的词素切和基于Bi-LSTM_Attention的文本分类方法。对实验文本进行词素切分及词干提取以有效减少特征空间维数,采用BERT嵌入...
关键词:维-哈-柯语 词素切分 词干提取 词干嵌入向量 特征表示 神经网络 文本分类 
面向音素序列的黏着语词干提取研究
《小型微型计算机系统》2023年第10期2362-2368,共7页古再力努尔·依明 米吉提·阿不里米提 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 
国家重点研发计划项目(2017YFC0820603)资助.
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向...
关键词:黏着语 维吾尔语 词干提取 上下文 注意力机制 BiLSTM-Attention-CRF 
面向检索服务的词干提取与相关排序优化研究
《桂林电子科技大学学报》2022年第5期354-365,共12页朱艳 张敬伟 杨青 胡晓丽 单美静 
国家自然科学基金(61862013,U1811264,U1711263);广西自然科学基金(2020GXNSFAA159117,2018GXNS FAA281199);广西可信软件重点实验室重点基金(KX202052);广西自动检测技术与仪器重点实验室主任基金(YQ21102)。
新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询词日益复杂,语言词...
关键词:词干提取算法 随时排序算法 文本预处理 SAAT 相关排序 
维吾尔语形态分析研究综述被引量:3
《计算机工程与应用》2021年第15期42-61,共20页刘畅 阿布都克力木·阿布力孜 姚登峰 哈里旦木·阿布都克里木 
国家自然科学基金(61866035,61966033);北京市自然科学基金面上项目(4202028)。
维吾尔语具有形态丰富性、黏着性和数据稀疏性等特点,处理技术和英汉等热门语言有着较大差距并且未能满足新疆地区发展需求。形态分析是自然语言处理的重要组成部分,研究维吾尔语形态分析对于推动维吾尔语信息处理技术发展有着重要意义...
关键词:维吾尔语 自然语言处理 形态分析 音变还原 词干提取 形态切分 
阿拉伯文文本预处理方法研究综述
《情报探索》2021年第7期122-128,共7页罗姝匀 于娟 
国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。
[目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不...
关键词:阿拉伯文 文本预处理 阿拉伯文分词 词性标注 词干提取 词形还原 
俄语词形规范化方法与工具研究综述
《情报探索》2021年第3期121-127,共7页唐菊香 于娟 刘建国 
国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。
[目的/意义]旨在为俄语词形规范化方法研究和应用提供参考。[方法/过程]运用文献研究法和比较研究法对已有俄语词形规范化方法进行评述,并分析总结俄语词形还原和词干提取两类方法工具的特点。[结果/结论]已有方法能够较好地解决俄语词...
关键词:俄语文本挖掘 词形规范化 词形还原 词干提取 
词干单元和卷积神经网络的哈萨克短文本分类被引量:1
《小型微型计算机系统》2020年第8期1627-1633,共7页沙尔旦尔·帕尔哈提 米吉提·阿不里米提 艾斯卡尔·艾木都拉 
国家自然科学基金项目(61662078,61633013)资助;国家重点研发计划项目(2017YFC0820603)资助。
针对哈萨克文本分类中词干提取效率低以及传统框架下特征表示维度高、数据稀疏、分类准确率不高等问题,提出基于哈萨克语形态分析的词干提取方法以及wor2vec_TFIDF融合特征表示和卷积神经网络(CNN)的哈萨克短文本分类方法.首先,根据哈...
关键词:哈萨克语 词干提取 词干向量 文本分类 形态学 
维-哈-柯多语言词素切分集成环境研究被引量:1
《电视技术》2020年第6期46-51,63,共7页穆凯代姆罕·伊敏江 沙尔旦尔·帕尔哈提 艾斯卡尔·艾木都拉 米吉提·阿不里米提 
国家自然科学基金项目(No.61662078);国家重点研发计划(No.2017YFC0820602)。
开发一个多语言统一用户界面的集成信息处理软件环境,对少数民族自然语言处理研究工作特别是派生类语言的文本及语音等信息处理带来了巨大便利。系统基于词-词素平行语料库,从语音、词素、词以及句子等多个层面出发,对3种派生类黏着性...
关键词:多语言 形态学 词素切分 词干提取 
字符序列标注的维吾尔语词干提取方法被引量:5
《现代电子技术》2020年第12期151-154,160,共5页古丽尼格尔·阿不都外力 买合木提·买买提 吐尔根·依布拉音 早克热·卡德尔 西热艾力·海如拉 王路路 
新疆多语种信息技术实验室开放课题(2016D03023);国家自然科学基金资助项目(61762084);国家自然科学基金资助项目(61662077);国家语委科研项目(ZDI135⁃54)。
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提...
关键词:词干提取 序列标注 条件随机场 特征提取 模型训练 预测结果 
论柯尔克孜语词干提取方法被引量:1
《现代职业教育》2020年第22期96-97,共2页开比尔罕·麦麦提明 艾孜尔古丽·玉素甫 
国家自然科学基金(61662081);新疆维吾尔自治区社会科学基金(2016CYY067);国家语言资源监测与研究中心少数民族语言分中心项目(NMLR201602);新疆维吾尔自治区自然科学基金(2017D01A58);新疆维吾尔自治区青年科技创新人才培养工程(QN2016BS0365);新疆师范大学数据安全重点实验室资助项目(XJNUSYS102017B01,XJNUSYS102017B02)。
首先介绍柯尔克孜语形态特征对词干提取的作用,之后探讨柯尔克孜语词类划分、词类的形态特征。介绍基于规则、词典以及词典和规则相结合的方法和柯语语料构建工作。讨论柯语基于词典、基于规则及词典与规则方法的设计工作。最后以柯尔...
关键词:柯尔克孜语 形态分析 词干提取 方法 
检索报告 对象比较 聚类工具 使用帮助 返回顶部