中文分词方法

作品数:48被引量:345H指数:12
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:龙华李寿山邵玉斌周国栋张会鹏更多>>
相关机构:昆明理工大学深圳市腾讯计算机系统有限公司北京邮电大学苏州大学更多>>
相关期刊:《计算机应用》《苏州大学学报(自然科学版)》《中文信息学报》《燕山大学学报》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金国家科技支撑计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于改进BERT的电力领域中文分词方法被引量:1
《计算机应用》2023年第12期3711-3718,共8页夏飞 陈帅琦 华珉 蒋碧鸿 
国家电网科技项目(52094020001A)。
针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合...
关键词:中文分词 领域分词 改进BERT 电力文本 深度学习 自然语言处理 
基于新词发现的跨领域中文分词方法被引量:6
《电子与信息学报》2022年第9期3241-3248,共8页张军 赖志鹏 李学 宁更新 杨萃 
国家自然科学基金(61871191);广东省自然科学基金(2020A1515010962);广州市科技计划(202002030251)。
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了...
关键词:中文分词 新词发现 跨领域 向量增强互信息 对抗式训练 
一种采用机器阅读理解模型的中文分词方法被引量:2
《西安交通大学学报》2022年第8期95-103,共9页周裕林 陈艳平 黄瑞章 秦永彬 林川 
国家自然科学基金资助项目(62166007)。
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内...
关键词:中文分词 序列标注 歧义词 机器阅读理解 
基于ACNNC模型的中文分词方法被引量:6
《中文信息学报》2022年第8期12-19,28,共9页张忠林 余炜 闫光辉 袁晨予 
国家自然科学基金(61662043,62062049);甘肃省哲学社会科学规划项目(20YB056)。
目前,现有中文分词模型大多是基于循环神经网络的,其能够捕捉序列整体特征,但存在忽略了局部特征的问题。针对这种问题,该文综合了注意力机制、卷积神经网络和条件随机场,提出了注意力卷积神经网络条件随机场模型(Attention Convolution...
关键词:中文分词 深度学习 注意力机制 
融合字根信息的卷积神经网络中文分词方法被引量:4
《小型微型计算机系统》2022年第2期271-277,共7页王星 于丽美 陈吉 
国家自然科学基金项目(62006107,61402212)资助;辽宁省高等学校杰出青年学者成长计划项目(LJQ2015045)资助;中国博士后基金面上项目(2016M591452)资助;辽宁省自然科学基金面上项目(2015020098)资助。
作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型...
关键词:中文分词 ALBERT 汉字字根 残差网络 深度学习 
基于N-gram的双向匹配中文分词方法被引量:12
《数理统计与管理》2020年第4期633-643,共11页凤丽洲 杨贵军 徐雪 徐玉慧 
国家社会科学基金项目青年项目(18CTJ008);天津市自然科学基金项目青年项目(18JCQNJC69600);国家自然科学基金项目面上项目(11471239);全国统计科学研究计划重点项目(2017LZ25,2017LZ05);全国统计科学研究一般项目(2018LY50);天津市社科规划重点课题(TJTJ19-001)。
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型...
关键词:N-GRAM模型 分词歧义 评测指标 双向匹配 
无池化层卷积神经网络的中文分词方法被引量:12
《计算机工程与应用》2020年第2期120-126,共7页涂文博 袁贞明 俞凯 
浙江省自然科学基金(No.LQ16H180004)
在中文信息处理中,分词是一个十分常见且关键的任务。很多中文自然语言处理的任务都需要先进行分词,再根据分割后的单词完成后续任务。近来,越来越多的中文分词采用机器学习和深度学习方法。然而,大多数模型都不同程度的有模型过于复杂...
关键词:自然语言处理 中文分词 卷积神经网络 字向量 
基于字向量的条件随机场的中文分词方法被引量:1
《武汉船舶职业技术学院学报》2019年第4期148-152,共5页周寅 
本文利用深度学习中的词向量来稍加改进,利用Word Embedding与条件随机场结合,然后进行线性组合,使分词达到更加高效。运用北大的语音资料库提供的实验语料进行实验,进一步证实实验结果,融合条件随机场的技术,在中文分词方面取得更优秀...
关键词:中文分词 CRFS 字向量 
一种基于双向LSTM的联合学习的中文分词方法被引量:10
《计算机应用研究》2019年第10期2920-2924,共5页章登义 胡思 徐爱萍 
国家重点研发计划资助项目(2017YFC0803700)
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句...
关键词:中文分词 大规模语料库 联合学习 双向长短时记忆模型 
基于词性标注与分词消歧的中文分词方法被引量:3
《广州大学学报(自然科学版)》2019年第5期27-33,共7页熊健 翟紫姹 
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型...
关键词:分词 分词消歧 最大匹配法 隐马尔可夫模型 词性标注 
检索报告 对象比较 聚类工具 使用帮助 返回顶部