自动分词

作品数:456被引量:2263H指数:30
导出分析报告
相关领域:自动化与计算机技术语言文字更多>>
相关作者:孙茂松郑家恒黄德根陈小荷尹锋更多>>
相关机构:清华大学南京师范大学哈尔滨工业大学山西大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于中医疫病古籍文本自动分词的药物规律挖掘研究
《现代情报》2025年第2期17-25,159,共10页刘嘉宇 李贺 于琳 时倩如 侯力铁 
国家社会科学基金冷门绝学专项研究项目“本草典籍整理、知识组织与智慧化建设研究”(项目编号:23VJXT024)。
[目的/意义]数字人文背景下的中医疫病古籍文本自动分词和基于分词结果的药物规律挖掘,是促进古籍知识活化与支持临床诊疗的重要途径。[方法/过程]本文提出了一种基于中医疫病古籍文本自动分词的药物规律挖掘框架,该框架包含了数据获取...
关键词:数字人文 文本分词 BiLSTM-CRF 中医疫病 知识挖掘 
基于CRF模型的《里耶秦简》自动断句与分词研究
《科技导报》2024年第23期135-144,共10页冯慧敏 郭帅帅 刘铭 
陕西省重点研发计划科研项目(2019ZDLGY17-03);西北大学研究生创新项目(CX2023045);山东农业工程学院科研启动经费项目(2024GCCZR-17)。
里耶秦简的数量是之前出土秦简的10倍,填补了秦朝历史记载中的诸多空白。将《里耶秦简》作为实验语料,探索基于CRF(条件随机场)模型的里耶秦简自动断句与分词方法。结合简文的实际特点,通过设置不同的特征模板,面向不同的任务验证模型...
关键词:CRF模型 里耶秦简 自动断句 自动分词 
融合部首信息的古汉语自动分词与词性标注一体化分析被引量:1
《数据分析与知识发现》2024年第11期102-113,共12页常博林 袁义国 李斌 许智星 冯敏萱 王东波 
国家语言文字工作委员会科研项目(项目编号:YB145-41);教育部人文社会科学一般项目(项目编号:24A10319028);国家社会科学基金重大项目(项目编号:21&ZD331)的研究成果之一。
[目的]针对现有古汉语自动分词与词性标注技术存在的准确度不高、效率不高等问题,提出一种融合部首信息的古汉语自动分词与词性标注一体化模型.[方法]基于7万余条汉字及其部首的数据,构建部首向量表示模型Radical2Vector.并将Radical2Ve...
关键词:自动分词 自动词性标注 古文信息处理 
数字人文视域下简帛文献的分词研究--以《里耶秦简牍》为例
《语言文字应用》2024年第3期132-144,共13页刘铭 冯慧敏 陈镱文 
陕西省重点研发计划项目“数字化文化资源平台的智能分析与利用研究”(2019ZDLGY17-03);陕西省秦创原队伍建设项目“数字人文视域下文化遗产人工智能核心技术研发与应用‘科学家+工程师’队伍”(2022KXJ-143)的资助。
简帛文献是一类不同于传世典籍的传统文化载体。本文以两卷里耶秦简为例,结合数字人文的文本数据计算及分析方法,对其进行自动分词研究。基于经过人工标注的里耶秦简文本构建里耶秦简语料库,分别使用3类分词方法进行实验,对比并讨论其...
关键词:数字人文 简帛文献 里耶秦简 自动分词 深度学习 
基于多语言预训练模型的缅甸语分词研究
《电脑知识与技术》2024年第11期22-28,共7页张啸岩 张慧 陈宇 
缅甸语属于低资源语言,收集大量缅语文本进行预训练是一项耗时耗力的工作。目前已存在一些在多种语言(包括缅甸语)上预训练的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一种新方法,即在多语言(包括缅甸...
关键词:缅甸语 自然语言处理 自动分词 Roberta 语料库 
数据库查询系统中自然语言理解技术应用被引量:1
《科技创新与应用》2023年第18期23-26,共4页王燕凤 
甘肃省教育科学“十四五”规划2021年度重点课题(GS[2021]GHBZ148)。
自然语言理解技术(NLU)是当下人工智能领域的热门研究课题,在帮助计算机准确理解人类语言,以及真正实现机器的智能化发挥重要作用。该文基于自然语言理解技术设计数据库查询系统,首先介绍数据库查询系统中使用到的关键技术,例如自动分...
关键词:数据库查询系统 自然语言理解技术 自动分词 查询目标 智能化 
基于ASBC模型的藏文自动分词方法研究被引量:1
《计算机与数字工程》2023年第6期1227-1230,1237,共5页尹宗鹤 尼玛次仁 于韬 拥措 
科技部重点研发计划专项(编号:2017YFB1402202);西藏自治区科技创新基地自主研发项目(编号:XZ2021HR002G);西藏大学研究生“高水平人才培养计划”项目(编号:2020-GSP-S174)资助。
藏文分词是藏文自然语言处理的前提工作,其效果将影响藏文自然语言处理的下游任务。神经网络的兴起,使结合预训练语言模型的深度学习方法成为分词研究的主流。针对传统神经网络获取语义信息有限的问题,论文利用大规模藏文语料库构建ALB...
关键词:藏文 自动分词 预训练 ALBERT 音节特征融合 
第一届古代汉语分词和词性标注国际评测被引量:6
《中文信息学报》2023年第3期46-53,64,共9页李斌 袁义国 芦靖雅 冯敏萱 许超 曲维光 王东波 
国家社会科学基金(21ZD&331);江苏省社会科学基金(20JYB004);国家语委项目(YB145—41);古籍工作重点课题(22GJK006)
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,...
关键词:古汉语 评测 自动分词 词性标注 古文信息处理 
公共资源电子交易大数据平台建设及典型应用被引量:1
《福建电脑》2022年第9期45-49,共5页黄建新 
为了对公共资源电子交易平台运行过程中产生的大规模结构化或非结构化的电子数据进行分析和利用,充分挖掘公共资源交易数据的价值,并提升电子交易水平和监管能力,本文设计了一种大数据平台的建设和应用方法,通过建立分层平台架构,集成...
关键词:电子招标投标 数据主题 自动分词 深度学习 
古汉语自动分词技术研究现状及进展
《海南开放大学学报》2022年第3期61-69,共9页王进 张义 
2019年国家社科基金重大项目“中、日、韩汉语音义文献集成与汉语音义学研究”(项目编号:19ZDA318);2021年淮北师范大学创新项目“基于Python的古汉语辞书释文自动分词研究”(项目编号:YX202101)。
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度...
关键词:古代汉语 自动分词 自然语言处理 深度学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部