分词研究

作品数:58被引量:319H指数:10
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:王东波陈建国修驰宋柔李成华更多>>
相关机构:北京大学南京农业大学大连理工大学中南民族大学更多>>
相关期刊:《智能计算机与应用》《测绘与空间地理信息》《科技导报》《信息技术与信息化》更多>>
相关基金:国家自然科学基金国家社会科学基金中央高校基本科研业务费专项资金湖北省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于改进隐马尔可夫模型的藏文分词研究
《信息技术与信息化》2025年第3期64-67,共4页贡保加 安见才让 
青海民族大学2023年度校级本硕博(学生)项目“基于深度学习的脱机手写藏文识别研究”(09M2023004)。
藏文分词是藏语信息处理领域的基础课题,分词是将原始文本数据切分成词的一种技术。分词技术可以应用到自然语言处理领域的许多下游任务中,诸如机器翻译、语义标注、文本分类、自然语言推理等,分词是自然语言处理中极为关键的环节。文...
关键词:藏文分词 隐马尔可夫模型 分词算法 未登录词 
基于CRF模型的《里耶秦简》自动断句与分词研究
《科技导报》2024年第23期135-144,共10页冯慧敏 郭帅帅 刘铭 
陕西省重点研发计划科研项目(2019ZDLGY17-03);西北大学研究生创新项目(CX2023045);山东农业工程学院科研启动经费项目(2024GCCZR-17)。
里耶秦简的数量是之前出土秦简的10倍,填补了秦朝历史记载中的诸多空白。将《里耶秦简》作为实验语料,探索基于CRF(条件随机场)模型的里耶秦简自动断句与分词方法。结合简文的实际特点,通过设置不同的特征模板,面向不同的任务验证模型...
关键词:CRF模型 里耶秦简 自动断句 自动分词 
基于语料库的《富萍》葛浩文英译本中的过去分词研究
《英语广场(学术研究)》2024年第34期64-67,共4页刘润亚 余晋 
教育部人文社科项目“基于西方媒体涉华新闻语料库的中国政治话语翻译与传播研究(项目编号:20YJC740086)”;湖北省教育厅人文社科青年项目“基于语料库的中国政治话语翻译与中国形象研究(项目编号:20Q016)”的阶段性研究成果。
本文基于《富萍》汉英双语平行语料库,探究汉语句段中适合用过去分词形式译介的成分,以及过去分词形式在译文中的作用和效果。研究发现:(1)过去分词形式适用于翻译汉语句段中的补语、状语、定语等成分,既可提升译文的修辞性、可读性、...
关键词:《富萍》 语料库 非谓语动词 过去分词 
数字人文视域下简帛文献的分词研究--以《里耶秦简牍》为例
《语言文字应用》2024年第3期132-144,共13页刘铭 冯慧敏 陈镱文 
陕西省重点研发计划项目“数字化文化资源平台的智能分析与利用研究”(2019ZDLGY17-03);陕西省秦创原队伍建设项目“数字人文视域下文化遗产人工智能核心技术研发与应用‘科学家+工程师’队伍”(2022KXJ-143)的资助。
简帛文献是一类不同于传世典籍的传统文化载体。本文以两卷里耶秦简为例,结合数字人文的文本数据计算及分析方法,对其进行自动分词研究。基于经过人工标注的里耶秦简文本构建里耶秦简语料库,分别使用3类分词方法进行实验,对比并讨论其...
关键词:数字人文 简帛文献 里耶秦简 自动分词 深度学习 
基于领域大语言模型的古籍分词研究被引量:4
《科技情报研究》2024年第2期11-20,共10页朱丹浩 赵志枭 吴娜 王希羽 孙光耀 王东波 
国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(编号:21&ZD331)。
[目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1...
关键词:“荀子”大模型 《左传》 分词 指令微调 
基于多语言预训练模型的缅甸语分词研究
《电脑知识与技术》2024年第11期22-28,共7页张啸岩 张慧 陈宇 
缅甸语属于低资源语言,收集大量缅语文本进行预训练是一项耗时耗力的工作。目前已存在一些在多种语言(包括缅甸语)上预训练的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一种新方法,即在多语言(包括缅甸...
关键词:缅甸语 自然语言处理 自动分词 Roberta 语料库 
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究被引量:3
《农业机械学报》2024年第2期287-294,共8页余礼根 郭晓利 赵红涛 杨淦 张俊 李奇峰 
云南省重大科技专项计划项目(202102AE090039);北京市农林科学院创新能力建设专项(KJCX20230204);北京市数字农业创新团队建设项目(BAIC10-2023)。
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona...
关键词:畜禽疫病 文本分词 预训练语言模型 双向长短时记忆网络 条件随机场 
无监督与有监督相结合的粤语分词方法
《计算机工程与设计》2023年第8期2482-2488,共7页苏振江 张仰森 胡昌秀 黄改娟 
国家自然科学基金项目(61772081);科技创新服务能力建设—科研基地建设—北京实验室—国家经济安全预警工程北京实验室基金项目(PXM2018_014224_000010)。
为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修...
关键词:粤语 分词研究 词库 互信息 端到端模型 有监督模型 无监督模型 
基于图卷积神经网络的古汉语分词研究被引量:7
《情报学报》2023年第6期740-750,共11页唐雪梅 苏祺 王军 杨浩 
国家自然科学基金国际重点合作项目“中国儒家学术史知识图谱构建研究”(72010107003)。
古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究...
关键词:古汉语 汉语分词 图卷积神经网络 预训练语言模型 BERT(bidirectional encoder representations from transformers) 
基于Re-Perceptron-CRF的规范类文本分词研究
《成都信息工程大学学报》2023年第3期298-305,共8页李宝林 刘宇韬 
四川省科技服务业示范资助项目(2021GFW015);四川省电子商务与现代物流研究中心重点资助项目(DSWL21-3)。
通过Re-Perceptron-CRF组合方法,利用规范类文档特点,对关键词进行切分。分别采取Viterbi、Perceptron、CRF和Re-Perceptron-CRF 4种算法分别对规范类文本进行分词研究。具体为基于句法分析对规范类文本使用正则表达式进行标准化处理,...
关键词:管理科学与工程 文本分析 中文分词 Re-Perceptron-CRF 词性标注 
检索报告 对象比较 聚类工具 使用帮助 返回顶部