分词模型

作品数:28被引量:177H指数:8
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:姜明张旻陈文亮李正华张民更多>>
相关机构:阿里巴巴集团控股有限公司北京百度网讯科技有限公司南京邮电大学苏州大学更多>>
相关期刊:《情报工程》《计算机工程》《中南民族大学学报(自然科学版)》《软件工程》更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家社会科学基金北京市教委科技计划面上项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于预训练模型标记器重构的藏文分词系统
《计算机应用》2025年第4期1199-1204,共6页杨杰 尼玛扎西 仁青东主 祁晋东 才让东知 
新一代人工智能国家科技重大专项(2022ZD0116100);省部共建藏语智能信息处理及应用国家重点实验室开放课题项目(2023⁃Z⁃006)。
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,...
关键词:藏语信息处理 藏文分词模型 预训练模型 自然语言处理 标记器重构 
中文工艺规范文本分词语料的构建与研究被引量:3
《计算机科学》2023年第S02期63-68,共6页王裴岩 张莹欣 付小强 陈佳欣 徐楠 蔡东风 
辽宁省应用基础研究计划(2022JH2/101300248)。
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范...
关键词:中文分词 工艺规范文本 分词规范 分词语料 分词模型 
中文地名地址成分信息识别
《数字技术与应用》2023年第4期65-67,共3页王钟岳 刘洋 
在随着人工智能的快速发展和大数据时代的到来,如何在大量的数据中快速的并准确的获取我们所有需要的数据成为了现在计算机技术发展的重要方向,由于中文地名的复杂性对当前的地名地址识别工作起到了较大的困扰。本文利用基于深度学习的...
关键词:状态转移函数 人工智能 有限状态机模型 信息识别 大数据时代 深度学习 分词模型 地名地址 
基于长短时记忆和条件随机场藏文分词模型被引量:3
《情报工程》2023年第2期108-116,共9页于永斌 陆瑞军 尼玛扎西 群诺 王昊 唐倩 彭辰辉 项秀才让 
科技创新2030-“新一代人工智能”重大项目-藏语言文字自动识别技术研发和应用(项目编号:2022ZD0116100)。
[目的/意义]本文提出基于长短时记忆(Long short-term memory,LSTM)神经网络和条件随机场(Conditional Random Field,CRF)的藏文分词模型。[方法/过程]引入注意力机制,获取更多特征信息,提升模型关注上下文信息与当前音节之间联系;提出...
关键词:藏文分词 长短时记忆网络 条件随机场 注意力机制 
基于Attention-BIGRU-CRF的中文分词模型被引量:2
《计算机与现代化》2022年第8期7-12,19,共7页周慧 徐名海 许晓东 
自然语言处理是人工智能发展的重要分支,而中文分词是自然语言处理的第一步,提高中文分词的效率可以提高自然语言处理的结果的准确性。因此提出一种Attention-BIGRU-CRF模型,首先将中文文本通过词向量转换,将文本转换成向量的形式,再利...
关键词:自然语言处理 双向门控循环单元 条件随机场 注意力机制 中文分词 
基于多特征的柳州螺蛳粉购买评论情感倾向性分析
《建模与仿真》2022年第1期66-75,共10页余婷 黄李韦 
新冠疫情催生了“宅经济”,袋装柳州螺蛳粉强势崛起,成为全国热销的方便食品之一。目前网购平台上开设的螺蛳粉网店高达1.2万家,在竞争如此激烈的情况下,挖掘大众的喜好变得尤为重要。本文拟采用关键词提取、词云图可视化分析、LDA主题...
关键词:文本挖掘 情感分析 评论分词模型 螺蛳粉 
基于Bi-LSTM的医学文本分词模型被引量:1
《通信技术》2022年第2期151-159,共9页邵党国 黄初升 马磊 贺建峰 易三莉 
国家自然科学基金项目(61702069,61741112)。
中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战...
关键词:中文分词 自然语言处理 双向长短期记忆网络 领域分词 
基于知识图谱的变电站安全隐患动态分析方法被引量:10
《电力系统及其自动化学报》2021年第12期125-133,共9页郭素芹 郑建宁 陈坤 林瑞安 张勃波 宗鑫 
由于变电站安全隐患非结构化的文本格式导致无法进行隐患知识提取与推理,难以挖掘潜在隐患间的关系和规律,提出一种变电站安全隐患动态分析方法。首先,对非结构化的隐患文本数据解析抽取,构建了基于ElasticSearch弹性分布式隐患数据搜...
关键词:变电站安全 知识图谱 搜索引擎 隐马尔科夫分词模型 图数据库 
面向专业领域的多头注意力中文分词模型--以西藏畜牧业为例被引量:3
《中文信息学报》2021年第7期72-80,共9页崔志远 赵尔平 雒伟群 王伟 孙浩 
国家自然科学基金(61762082);西藏自治区自然科学基金(XZ2018ZRG-66);西藏自治区科技计划项目(XZ202001ZY0055G)。
专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分...
关键词:中文分词 多头注意力机制 双向门控循环神经网络 西藏畜牧业语料 
一种基于特征迁移的跨领域中文分词模型被引量:1
《中国传媒大学学报(自然科学版)》2021年第3期41-45,74,共6页张韬政 张家健 
中国传媒大学中央高校基本科研业务费专项资金资助(3132018XNG1829)。
中文分词是自然语言处理的常见任务之一。在跨领域分词任务中,目标领域的数据分布不同及数据量不足通常导致分词效果急剧下降。基于该问题,本文通过引入了迁移学习、对抗学习和正交约束以减轻共享和私有特征之间的干扰,提出了一种基于...
关键词:迁移学习 对抗学习 正交约束 中文分词 
检索报告 对象比较 聚类工具 使用帮助 返回顶部