语料

作品数:16970被引量:32016H指数:72
导出分析报告
相关领域:语言文字更多>>
相关作者:余正涛何安平陈建生周国栋王克非更多>>
相关机构:上海交通大学上海外国语大学北京外国语大学大连海事大学更多>>
相关期刊:更多>>
相关基金:国家社会科学基金教育部人文社会科学研究基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=中文信息学报x
条 记 录,以下是1-10
视图:
排序:
基于规则的藏文音节纠正算法
《中文信息学报》2025年第1期28-36,共9页普尺 吕慧 李妍 多拉 周庆国 
国家重点研究与发展计划(2020YFC0832500);国家自然科学基金(61402210,62266037)。
藏文语料库的质量是影响藏文信息处理的重要因素。通过分析藏文音节拼写规则,该文构建了针对藏文规则音节和非规则音节拼写检查的音节规则库和非规则音节字典(包括未登录词音译、本体藏文和梵音转写),并基于此提出基于规则的藏文音节纠...
关键词:语料库 藏文音节 拼写检查 音节纠正 
中文糖尿病问题分类体系及标注语料库构建研究
《中文信息学报》2024年第12期54-63,共10页钱晓波 谢文秀 龙绍沛 兰牧融 慕媛媛 郝天永 
国家社会科学基金(19BYY125)。
作为一种典型慢性疾病,糖尿病已成为全球重大公共卫生挑战之一。随着互联网的快速发展,庞大的二型糖尿病患者和高危人群对糖尿病专业信息获取的需求日益突出,糖尿病自动问答服务在患者和高危人群的日常健康服务中也发挥着越来越重要的作...
关键词:糖尿病 问题分类 分类体系 语料库建设 
基于特征融合的汉语被动句自动识别研究
《中文信息学报》2024年第8期15-24,共10页胡康 曲维光 魏庭新 周俊生 李斌 顾彦慧 
国家社会科学基金(21&ZD288)。
汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一...
关键词:汉语被动句 自动识别 特征融合 语料库 
机器音译研究综述
《中文信息学报》2024年第7期1-17,共17页李卓 王志娟 赵小兵 
国家语委项目(ZDI145-61)。
机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,其是机器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机...
关键词:音译 综述 语料库 评价指标 
抽象语义表示解析方法研究综述
《中文信息学报》2024年第3期1-23,共23页尹华 卢懿亮 季跃蕾 吴梓浩 彭亚男 
国家自然科学基金(12271111);教育部人文社会科学研究青年基金(21YJCZH202);广东省普通高校创新团队项目(2022WCXTD008)。
句子级语义分析是自然语言处理(NLP)的核心任务,面临复杂语义的表示问题。抽象语义表示(AMR)突破浅层局限,实现了领域无关的整句通用语义表示,具备准确表征句子完整语义的能力。因为AMR解析效果会影响下游NLP任务的表现,所以解析方法成...
关键词:抽象语义表示 解析方法 语料库 自然语言处理 
同源语料增强的低资源神经机器翻译被引量:1
《中文信息学报》2024年第2期54-60,共7页王琳 刘伍颖 
教育部人文社会科学研究青年基金(20YJC740062);教育部人文社会科学研究规划基金(20YJAZH069);教育部新文科研究与改革实践项目(2021060049);上海市哲学社会科学“十三五”规划课题(2019BYY028);山东省研究生教育改革研究项目(SDYJG21185);山东省本科教学改革研究重点项目(Z2021323)。
缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实...
关键词:同源语料 数据增广 低资源机器翻译 印尼语 马来语 
糖尿病电子病历实体及关系标注语料库构建被引量:1
《中文信息学报》2023年第12期17-25,共9页叶娅娟 胡斌 张坤丽 昝红英 
中国博士后科学基金(2020M682349);河南省科技攻关项目(232102211033);河南省医学科技攻关计划省部共建项目(SB201901021);河南省高等学校重点科研项目(19A520003,20A520038);教育部人文社科规划项目(20YJA740033);河南省哲学社会科学规划项目(2019BYY016)。
电子病历是医疗信息的重要来源,包含大量与医疗相关的领域知识。该文从糖尿病电子病历文本入手,在调研了国内外已有的电子病历语料库的基础上,参考I2B2实体及关系分类,建立了糖尿病电子病历实体及实体关系分类体系,并制定了标注规范。...
关键词:糖尿病 电子病历 实体及关系标注体系 语料库构建 
融合字符与词性特征的泰语文本语法错误检测
《中文信息学报》2023年第11期38-48,共11页施灿镇 朱俊国 余正涛 
国家自然科学基金(62166022,61732005);云南省科技厅面上项目(202101AT070077);云南省人培项目(KKSY201903018)。
文本语法错误检测与纠正旨在自动识别并纠正文本中的语法错误。与汉语、英语等语言不同,该任务在一些泰语语言的文本上受制于数据规模问题,仍然只能针对简单规则进行识别和校正。该文结合相应的语言学及错误类型特点,基于人工启发式规则...
关键词:文本语法错误检测 泰语 语料库 特征融合 
面向中文网络对话文本的论辩挖掘——基于微调与提示学习的大模型算法被引量:2
《中文信息学报》2023年第10期139-148,共10页言佳润 鲜于波 
国家社会科学基金(18ZDA033);教育部人文社科研究项目(22JJD520001)。
随着互联网技术的飞速发展,即时通信、在线论坛等应用广泛普及,网络上产生了了大量非结构化或半结构化的网络对话论辩文本,对这些文本进行论辩挖掘研究具有重要的学术价值与现实意义。该文首先构建了中文网络对话论辩语料库,以子句作为...
关键词:论辩挖掘 网络对话文本 论辩语料库 预训练模型 提示学习 
语料循环推进低资源神经机器翻译被引量:1
《中文信息学报》2023年第6期89-95,共7页刘伍颖 王琳 
教育部人文社会科学研究规划基金(20YJAZH069);上海市哲学社会科学“十三五”规划课题(2019BYY028);教育部人文社会科学研究青年基金(20YJC740062);广州市科技计划项目(202201010061)。
双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无...
关键词:语料循环推进 机器翻译 低资源语言 半监督学习 增量学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部