分词方法

作品数:141被引量:1043H指数:18
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:龙华邵玉斌李寿山余正涛姜明更多>>
相关机构:昆明理工大学平安科技(深圳)有限公司深圳市腾讯计算机系统有限公司苏州大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金国家高技术研究发展计划教育部人文社会科学研究基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
一种基于八词位标签的BiLSTM_CRF藏文分词方法
《中文信息学报》2024年第10期64-70,79,共8页常芳玉 才智杰 
国家自然科学基金(61966031,61866032);青海省科技厅资助项目(2019-SF-129,2021-ZJ-727);青海省藏文信息处理与机器翻译重点实验室(2020-ZJ-Y05);藏文信息处理教育部重点实验室(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03)。
藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集...
关键词:自然语言处理 藏文分词 BiLSTM_CRF 八词位标签 
基于BERT的电力领域无监督分词方法
《信息技术》2024年第1期96-103,共8页陆斯悦 张禄 李香龙 邢其敬 段大鹏 林华 
国网北京市电力公司科技项目(520223200066)。
目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部...
关键词:电力文本 中文分词 无监督 BERT 遮蔽语言模型 
一种基于预训练模型的藏文分词方法
《中文信息学报》2023年第12期70-75,共6页色差甲 桑杰端珠 才让加 慈祯嘉措 
青海省重点研发与转化计划项目(2022-GX-104);藏文智能信息处理及应用国家重点实验室自主课题(2024-SKL-006)。
藏文分词是藏语信息处理的基础与关键。虽然藏文分词技术得到了长足的进步,但在实际应用过程中仍面临着语料领域受限及未登录词问题。该文针对以上问题提出一种基于预训练语言模型的藏文分词方法,先在含有46.55亿字符的纯文本语料上进...
关键词:藏文分词 藏文文本语料 预训练模型 
基于改进BERT的电力领域中文分词方法被引量:1
《计算机应用》2023年第12期3711-3718,共8页夏飞 陈帅琦 华珉 蒋碧鸿 
国家电网科技项目(52094020001A)。
针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合...
关键词:中文分词 领域分词 改进BERT 电力文本 深度学习 自然语言处理 
无监督与有监督相结合的粤语分词方法
《计算机工程与设计》2023年第8期2482-2488,共7页苏振江 张仰森 胡昌秀 黄改娟 
国家自然科学基金项目(61772081);科技创新服务能力建设—科研基地建设—北京实验室—国家经济安全预警工程北京实验室基金项目(PXM2018_014224_000010)。
为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修...
关键词:粤语 分词研究 词库 互信息 端到端模型 有监督模型 无监督模型 
基于预训练汇编指令表征的二进制代码相似性检测方法被引量:3
《计算机科学》2023年第4期288-297,共10页王泰彦 潘祖烈 于璐 宋景彬 
国家重点研发计划(2021YFB3100500)。
二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程...
关键词:二进制代码 相似性检测 指令表征 分词方法 预训练任务 
基于组合分词方法和LDA模型的区块链金融产业关键技术识别研究被引量:12
《图书情报工作》2022年第19期110-121,共12页吕鲲 陈箫羽 靖继鹏 
国家社会科学基金青年项目"‘双碳’目标下‘技术-经济-区域’信息融合的创新生态系统构建及其协同演化研究"(项目编号:22CTQ028)研究成果之一。
[目的/意义]在区块链金融飞速发展的背景下,识别区块链金融产业的关键技术,有助于相关部门制定更加精准的风险防范措施和技术监管政策,以期增强区块链应用的合法性和可控性,保障金融稳定。[方法/过程]通过收集区块链金融的专利数据,利...
关键词:区块链金融 关键技术 技术识别 组合分词 LDA模型 
基于新词发现的跨领域中文分词方法被引量:6
《电子与信息学报》2022年第9期3241-3248,共8页张军 赖志鹏 李学 宁更新 杨萃 
国家自然科学基金(61871191);广东省自然科学基金(2020A1515010962);广州市科技计划(202002030251)。
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了...
关键词:中文分词 新词发现 跨领域 向量增强互信息 对抗式训练 
一种采用机器阅读理解模型的中文分词方法被引量:2
《西安交通大学学报》2022年第8期95-103,共9页周裕林 陈艳平 黄瑞章 秦永彬 林川 
国家自然科学基金资助项目(62166007)。
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内...
关键词:中文分词 序列标注 歧义词 机器阅读理解 
基于ACNNC模型的中文分词方法被引量:6
《中文信息学报》2022年第8期12-19,28,共9页张忠林 余炜 闫光辉 袁晨予 
国家自然科学基金(61662043,62062049);甘肃省哲学社会科学规划项目(20YB056)。
目前,现有中文分词模型大多是基于循环神经网络的,其能够捕捉序列整体特征,但存在忽略了局部特征的问题。针对这种问题,该文综合了注意力机制、卷积神经网络和条件随机场,提出了注意力卷积神经网络条件随机场模型(Attention Convolution...
关键词:中文分词 深度学习 注意力机制 
检索报告 对象比较 聚类工具 使用帮助 返回顶部