常宝宝

作品数:37被引量:444H指数:11
导出分析报告
供职机构:北京大学更多>>
发文主题:机器翻译自然语言处理汉语双语语料库汉语语义更多>>
发文领域:自动化与计算机技术语言文字自然科学总论更多>>
发文期刊:《计算机工程》《辞书研究》《外语研究》《计算机工程与应用》更多>>
所获基金:国家自然科学基金国家重点基础研究发展计划国家社会科学基金教育部人文社会科学重点研究基地度重大研究项目更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
生成,推理与排序:基于多任务架构的数学文字题生成
《中文信息学报》2024年第12期159-169,180,共12页曹天旸 许晓丹 常宝宝 
国家自然科学基金(61936012,61876004)。
数学文字题是一段能反映数学等式潜在逻辑的叙述性文本。成功的数学问题生成在语言生成和教育领域都具有广阔的应用前景。前人的工作大多需要人工标注的模板或关键词作为输入,且未考虑数学表达式本身的特点。该文提出了一种多任务联合...
关键词:数学文字题生成 多任务学习 
融合知识的多目标词联合框架语义分析模型
《中文信息学报》2024年第8期25-33,共9页陈旭东 郑策 常宝宝 
国家自然科学基金(61936012)。
框架语义分析任务是自然语言处理领域的一项基础性任务。先前的研究工作大多针对单目标词进行模型设计,无法一次性完成多个目标词的框架语义结构提取。该文提出一个面向多目标的框架语义分析模型,实现对多目标词的联合预测。该模型对框...
关键词:框架语义分析 框架网络 
基于概念预测和关系预测的AMR解析与对齐方法
《中文信息学报》2024年第7期18-30,共13页陈亮 高博飞 常宝宝 张亦驰 
国家自然科学基金(61936012)。
抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的...
关键词:语义解析 抽象语义表示 中文自然语言处理 
自然语言处理评测数据集质量评估研究被引量:5
《中文信息学报》2023年第2期26-40,共15页王诚文 董青秀 穗志方 詹卫东 常宝宝 王海涛 
国家科技创新2030“新一代人工智能”重大项目(2020AAA0106700);国家自然科学基金(U19A2065);中国博士后科学基金(2022M710246)。
评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的...
关键词:自然语言处理 评测 数据集 质量评估 
CHIP2020评测任务1概述:中文医学文本命名实体识别被引量:3
《中文信息学报》2022年第4期66-72,共7页李雯昕 张坤丽 关同峰 张欢 朱田恬 常宝宝 陈清财 
河南省医学科技攻关计划省部共建项目(SB201901021);郑州市协同创新重大专项科技攻关项目(20XTZX1120);河南省高等学校重点科研项目(20A520038)。
第六届中国健康信息处理会议(China Conference on Health Information Processing,CHIP2020)组织了中文医疗信息处理方面的6个评测任务,其中任务1为中文医学文本命名实体识别任务,该任务的主要目标是自动识别医学文本中的医学命名实体...
关键词:命名实体识别 医学文本 自然语言处理 
科技术语自动提取技术——现状与思考被引量:8
《中国科技术语》2022年第1期3-13,共11页常宝宝 
全国科学技术名词审定委员会科研项目“基于深度学习的科技术语提取技术研究”(2017001);国家自然科学基金项目“基于深度学习的数据-文本生成技术研究”(61876004)。
文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来...
关键词:自动术语提取 自动术语标注 单元度 术语度 机器学习 
自然语言处理评测中的问题与对策被引量:10
《中文信息学报》2021年第6期1-15,共15页董青秀 穗志方 詹卫东 常宝宝 
国家科技创新2030“新一代人工智能”重大项目(2020AAA0067067000);国家自然科学基金(U19A2065)。
自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出...
关键词:自然语言处理评测 数据集偏差 评测指标 
基于自注意力机制的科技术语自动提取技术研究被引量:4
《中国科技术语》2021年第2期20-26,共7页赵颂歌 张浩 常宝宝 
国家自然科学基金项目“基于深度学习的数据-文本生成技术研究”(61876004);全国科学技术名词审定委员会科研项目“基于深度学习的科技术语提取技术研究”(2017001)。
科技术语提取是科技术语自动处理的重要环节,对后续的机器翻译、信息检索、QA问答等任务有重要意义。传统的人工科技术语提取方法耗费大量的人力成本。而一种自动提取科技术语方法是将术语提取转化为序列标注问题,通过监督学习方法训练...
关键词:科技术语提取 远程监督 自注意力 
基于高斯混合模型的现代汉语构式成分自动标注方法被引量:3
《中文信息学报》2020年第9期1-8,共8页黄海斌 常宝宝 詹卫东 
教育部人文社科基地2015年度重大项目(15JJD740002);国家自然科学基金(61876004)。
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯...
关键词:现代汉语构式 自动标注 高斯混合模型 数据挖掘 
精细化的中文词性标注评测集的研制
《中文信息学报》2020年第9期9-18,共10页唐乾桐 常宝宝 詹卫东 
教育部人文社科重点研究基地重大项目(15JJD740002);国家自然科学基金(61876004)。
该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5873句、涵盖了2326项词例和70个评测项目的评测试题集,并用这...
关键词:精细化评测 词性标注 语言资源 
检索报告 对象比较 聚类工具 使用帮助 返回顶部