俞士汶

作品数:107被引量:1417H指数:22
导出分析报告
供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
发文主题:自然语言处理中文信息处理计算语言学现代汉语计算机应用更多>>
发文领域:自动化与计算机技术语言文字文化科学电子电信更多>>
发文期刊:更多>>
所获基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
参照生成词库理论对动名兼类现象再讨论被引量:7
《辞书研究》2020年第4期1-8,I0001,共9页俞士汶 朱学锋 刘扬 
中国国家自然科学基金项目(项目编号61772278);国家社科基金一般项目(项目编号16BYY137);国家社科基金重大项目(项目编号18ZDA295)的支持。
词的兼类问题及其处理策略是历久弥新的现代汉语词类研究中重要而又困难的课题之一。文章简要介绍汉语语法学界关于兼类的研究,然后参照生成词库理论,对其中最受关注的动名兼类现象再次进行讨论。根据陆俭明教授从汉语教学需要出发对兼...
关键词:生成词库理论 兼类词 动名兼类 名动词 语义角色 
基于大规模语料的汉语教学词表更新研究——以《汉语国际教育用音节汉字词汇等级划分》名词为例被引量:4
《辞书研究》2019年第5期64-74,122,123,共13页王治敏 俞士汶 
国家社科基金重大项目(项目编号18ZDA295);教育部人文社科基金(项目编号16YJA740036);北京语言大学梧桐创新平台项目[中央高校基础科研业务费(项目编号16PT03,18YBT03)]的资助
文章利用2005-2009年这5年的《人民日报》和广播电视语料,重点考察了《汉语国际教育用音节汉字词汇等级划分》中的名词在大规模真实语料中的分布,通过设计统计时点连续分布的标准,成功过滤出过时的词汇,同时赋予《等级划分》中的名词以...
关键词:教学词表 统计特征 统计时点 教材编写 词汇等级 
面向自然语言处理的机器词典的研制被引量:2
《辞书研究》2019年第2期22-30,I0001,共10页俞士汶 朱学锋 
中国国家自然科学基金项目"汉语抽象意义表示关键技术研究"(项目编号61772278)的支持
北京大学计算语言学研究所积30余年之努力,研制了一部面向自然语言处理的机器词典,即《现代汉语语法信息词典》(以下简称GKB)。基于GKB,又衍生了一系列成果,进而集成为综合型语言知识库。文章扼要介绍GKB及相关成果,并总结从事大型语言...
关键词:自然语言处理 语言工程 现代汉语语法信息词典 综合型语言知识库 交叉学科 
成语知识库及“以”在成语中的词类—义项分布
《汉语应用语言学研究》2018年第1期1-11,共11页俞士汶 朱学锋 王治敏 
国家重点基础研究发展计划“融合三元空间的中文语言知识与世界知识获取和组织”课题(2014CB340504);国家自然科学基金项目“汉语抽象意义表示关键技术研究”(61772278);教育部人文社科基金项目(16YJA740036)的支持
本文研究基于以下两个数据基础:(1)北京大学计算语言学研究所研制的汉语成语知识库;(2)基于《古今汉语字典》建立的单字词“以”的知识数据库.从成语知识库中抽取出含“以”的成语,整理后有427个.对“以”标注词类和义项,并按照“以”...
关键词:成语 汉语成语知识库 词类 义项 词类—义项分布 
《同义词词林》的嵌入表示与应用评估被引量:3
《厦门大学学报(自然科学版)》2018年第6期867-875,共9页段宇光 刘扬 俞士汶 
国家重点基础研究发展计划(973计划)(2014CB340504);国家社会科学基金重大项目(12&ZD119);国家社会科学基金(16BYY137)
在自然语言处理中,嵌入表示是表达语言知识的重要途径和手段,以《同义词词林》为例,提出基于知识库训练嵌入表示的伪句式构造方法,并在多项任务上测试新方法的有效性.根据《同义词词林》词义编码反映的层级结构,将这些编码扩展为多种伪...
关键词:《同义词词林》 嵌入表示 词义合成 类比推理 相似度 
助词“的”用法自动识别研究被引量:3
《北京大学学报(自然科学版)》2018年第3期466-474,共9页刘秋慧 张坤丽 许鸿飞 俞士汶 昝红英 
国家重点基础研究发展计划(2014CB340504); 国家自然科学基金(61402419,60970083); 国家社会科学基金(14BYY096); 计算语言学教育部重点实验室开放课题项目; 河南省科技厅基础研究项目(142300410231,142300410308);河南省科技厅科技攻关项目(172102210478)资助; 河南省教育厅科学技术研究重点项目(15A520098)
在"三位一体"虚词用法知识库的基础上,分别采用基于规则、基于CRF模型和神经网络模型的门循环单元,对助词"的"用法进行自动识别,识别的准确率分别为34.4%,77.5%和81.3%。在对助词"的"用法进行分析的基础上,合并了部分用法,并采用CRF模...
关键词:“的” 门循环单元 规则 CRF 
基于多特征的语义角色标注一致性计算方法研究被引量:3
《北京大学学报(自然科学版)》2018年第3期475-480,共6页柯永红 朱永福 穗志方 俞士汶 
国家重点基础研究发展计划(2014CB340504)资助
综合语义角色标注语料的格式、标签结构、标签内容和用户可信度等多个特征,实现一种自动的语义角色标注一致性计算方法。实验证明,该方法对错误标注的召回率高,并且速度快,结果稳定,可以大幅度地提高语义角色标注一致性检查的效率。
关键词:语料库 多特征 一致性计算 语义角色标注 
《现汉》与《语法信息词典》词类对应分析被引量:3
《中文信息学报》2017年第5期1-7,20,共8页邱立坤 赵慧 俞士汶 朱学锋 
国家自然科学基金(61572245);国家重点基础研究发展计划(2014CB340504);国家社会科学基金(15BYY094)
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大...
关键词:现代汉语词典 现代汉语语法信息词典 词类标注 词类对应 
基于群体智慧的语料标注方法研究被引量:6
《中文信息学报》2017年第4期108-113,131,共7页柯永红 俞士汶 穗志方 宋继华 
中国博士后科学基金(2015M570877);国家重点基础研究发展计划(2014CB340504)
自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求,该文提出了基于群体智慧的语料标注方法,设计了标注模型,并就用户能力评测、语...
关键词:群体智慧 语料标注 自然语言处理 
面向隐喻识别的词语抽象性度量被引量:3
《中文信息学报》2017年第3期41-47,共7页贾玉祥 昝红英 范明 俞士汶 王治敏 
国家自然科学基金(61402419;61170163);国家社会科学基金(14BYY096);国家重点基础研究发展计划973课题(2014CB340504);计算语言学教育部重点实验室(北京大学)开放课题(201301;201401)
隐喻通常借助具体的概念来表达抽象的概念。如果能判断出文本中词语所指的概念是具体还是抽象的,即度量出词语的抽象程度,那么这将为隐喻的机器识别提供重要的依据。该文提出基于跨语言知识迁移的汉语词语抽象性度量方法,把英语中的词...
关键词:隐喻识别 词语抽象性 跨语言知识迁移 
检索报告 对象比较 聚类工具 使用帮助 返回顶部