曹存根

作品数:126被引量:495H指数:12
导出分析报告
供职机构:中国科学院计算技术研究所更多>>
发文主题:知识获取人工智能本体自然语言理解文法更多>>
发文领域:自动化与计算机技术文化科学医药卫生军事更多>>
发文期刊:《系统科学与数学》《南京师大学报(自然科学版)》《高技术通讯》《系统工程理论与实践》更多>>
所获基金:国家自然科学基金国家重点基础研究发展计划国家社会科学基金国家高技术研究发展计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
模式与深度学习融合抽取因果事件三元组
《高技术通讯》2024年第9期921-934,共14页黄俏娟 曹存根 陈志文 
国家重点研发计划(2022YFC3302300);国家科技重大专项(7090201050307);国家重点研发计划子课题(2022YFC3302305-02);国家242信息安全计划(2022A056)资助项目。
因果事件三元组对人们理解事件之间的逻辑联系至关重要。针对从文本中抽取因果事件三元组面临的缺乏高质量的数据集和因果知识覆盖范围有限的问题,本文提出了一种结合模式和深度学习的方法,从Web语料库中抽取因果事件三元组。首先,设计...
关键词:因果事件三元组 词法句法模式 双向长短期记忆-条件随机场(BiLSTM-CRF) 多特征融合 深度学习 
面向事件常识知识获取的事件分类研究
《中文信息学报》2024年第6期45-57,共13页王亚 曹存根 王石 
国家重点研究与发展计划(2017YFC1700300,2017YFB1002300);国家自然科学基金(61702234)。
在计算机科学和语言学中,针对动词语义层面上的分类问题,研究者们提出了不同的分类方法,但这些分类方法无一例外地都存在着分类不全面等分类学中经常遇到的问题。一个动词表示一个事件,该文以获取事件相关的常识知识为出发点,以动词性...
关键词:事件语义分类 特征属性 常识知识获取 
SOM-NCSCM+:抽取式神经网络中文标题生成方法研究
《高技术通讯》2023年第8期836-848,共13页资康莉 王石 曹存根 
国家重点研发计划(2022YFC3302300);国家242信息安全计划(2022A056)资助项目。
标题生成作为文本摘要任务的一个分支,能够帮助人们高效获取信息。本文针对中文标题生成任务面临的大规模、高质量中文标注数据缺乏的问题,利用标题往往可由原文中的词语来构成的特点,从将无监督学习模型与有监督的序列标注模型结合的...
关键词:中文标题生成 神经网络模型 主题模型 聚类模型 序列标注 
基于事件语义角色的常识知识获取
《中文信息学报》2023年第6期77-88,共12页王亚 曹存根 王石 
国家重点研究与发展计划(2017YFC1700300,2017YFB1002300);国家自然科学基金(61702234)。
常识知识获取是知识获取的瓶颈问题,该文提出了利用事件语义角色进行常识知识获取的方法。首先获取独立于句子(事件)的语义角色相关的常识知识(例如,施事有意志)和语义角色在句子中涉及的常识知识(例如,施事有嘴是施事喝受事的必要条件)...
关键词:语义角色 句模框架构建 常识知识获取 
基于BiLSTM-CRF的中文分组单字错误识别方法研究被引量:5
《中文信息学报》2023年第4期156-165,共10页曹阳 曹存根 资康莉 王石 
科技部重点研发课题(2017YFC1700302)。
近十多年来,中文自动校对取得了许多重要进展,但是单字错别字识别精度和召回率低一直是该领域的一个重要问题。该文提出一种基于BiLSTM-CRF的神经网络模型和单字分组策略识别中文错别字的方法。首先,该文提出一种构建分组单字混淆集的方...
关键词:BiLSTM-CRF 分组策略 分组单字混淆集 错别字识别训练语料 
一种改进的汉语语义角色分类体系与标注实践被引量:2
《中文信息学报》2023年第1期16-32,共17页宋衡 曹存根 王亚 王石 
国家重点研发计划(2017YFC1700302,2017YFB1002300);国家自然科学基金(61702234);北京市科技新星计划交叉学科合作课题(Z191100001119014)。
语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现...
关键词:汉语语义角色分类体系 知识抽取 文本挖掘 浅层语义分析 语料库 
非完美多分类标签体系下的领域短文本分类方法研究被引量:1
《计算机科学》2023年第1期185-193,共9页梁浩玮 王石 曹存根 
科技部重点研发计划课题:开放式智能化中医传承信息管理和挖掘平台的研制(2017YFC1700302)。
近年来,短文本分类技术获得了广泛的研究。但在实际应用中,随着文本数据的积累,人们经常会遇到分类体系问题及其引起的数据分类标注问题,原因在于分类标签体系通常具有动态性,以及体系中的分类标签具有不易区分性。为此,文中结合分类标...
关键词:非完美多分类标签体系 细粒度短文本分类 分类标注 数据清洗 
一种细粒度的汉语语义角色标注数据集的构建方法被引量:1
《中文信息学报》2022年第12期52-66,73,共16页宋衡 曹存根 王亚 王石 
国家重点研发计划(2017YFC1700302,2017YFB1002300);国家自然科学基金(61702234);北京市科技新星计划交叉学科合作课题(Z191100001119014)。
语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义...
关键词:语义角色 细粒度语义标注 汉语语义角色标注 汉语语义分析 
一种专利知识图谱的构建方法被引量:5
《计算机科学》2022年第11期185-196,共12页邓亮 曹存根 
专利知识图谱对专利精准检索、专利深度分析和专利知识培训等应用起到了重要作用。文中提出了一种实用的基于种子知识图谱、文本挖掘以及关系补全的专利知识图谱构建方法。在该方法中,为确保质量,首先人工建立一个种子专利知识图谱,然...
关键词:专利文本 专利知识图谱 词法句法分析 表示学习 
基于容错Earley解析算法的领域语义文法自动学习方法
《计算机科学》2021年第11期276-286,共11页马一帆 马涛涛 方芳 王石 唐素勤 曹存根 
科技部重点研发计划课题(2017YFC1700302);北京市科技新星计划交叉学科合作课题(Z191100001119014);国家重点研发计划重点专项(2017YFB1002300);国家自然科学基金(61967002)。
精细化的领域文本分析是高质量领域知识获取的重要前提,它通常依赖于大量某种形式的语义文法产生式,但总结这些文法通常耗时耗力。对此,文中提出了一种基于容错Earley解析算法的语义文法自动学习方法,根据种子文法自动生成新的语义文法...
关键词:容错Earley解析 语义文法 文法学习 过滤算法 语义纠正 
检索报告 对象比较 聚类工具 使用帮助 返回顶部