罗智勇

作品数:11被引量:98H指数:6
导出分析报告
供职机构:北京语言大学信息科学学院更多>>
发文主题:现代汉语中文信息处理数据稀疏自动分词相似词更多>>
发文领域:自动化与计算机技术语言文字文化科学更多>>
发文期刊:《中文信息学报》《北京大学学报(自然科学版)》《北京工业大学学报》《计算机研究与发展》更多>>
所获基金:国家自然科学基金教育部科学技术研究重点项目国家高技术研究发展计划中央高校基本科研业务费专项资金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于话头话体共享结构信息的机器阅读理解研究
《中文信息学报》2024年第5期32-40,共9页韩玉蛟 罗智勇 张明明 赵志琳 张青 
国家自然科学基金(62076037)。
机器阅读理解(Machine Reading Comprehension,MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素...
关键词:机器阅读理解 话头话体结构分析 注意力机制 预训练语言模型 
基于小句复合体的中文机器阅读理解研究被引量:1
《中文信息学报》2024年第3期130-140,共11页王瑞琦 罗智勇 刘祥 韩瑞昉 李舒馨 
国家自然科学基金(62076037)。
机器阅读理解任务要求机器根据篇章文本回答相关问题。该文以抽取式机器阅读理解为例,重点考察当问题的线索要素与答案在篇章文本中跨越多个标点句时的阅读理解问题。该文将小句复合体结构自动分析任务与机器阅读理解任务融合,利用小句...
关键词:机器阅读理解 跨标点句问答 小句复合体 
基于小句复合体的句子边界自动识别研究被引量:2
《中文信息学报》2021年第5期1-8,共8页何晓文 罗智勇 胡紫娟 王瑞琦 
北京语言大学研究生创新基金(中央高校基本科研业务费专项资金)(19YCX124);国家自然科学基金(62076037)。
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言...
关键词:句子 小句复合体 句子边界识别 
基于序列标注的引语识别初探被引量:2
《中文信息学报》2019年第2期1-7,共7页贾泓昊 罗智勇 
北京市哲学社会科学规划研究基地项目(13JDZHB005)
句间引用关系自动识别是篇章分析中一项重要内容。句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少。句间引用关系主要体现在引语中的引用句上。引语由引导句和引用句组成,一般分为直接引语和间...
关键词:引语的识别 序列标注 条件随机场 双向长短期记忆网络 
一种基于Hownet的词向量表示方法被引量:11
《北京大学学报(自然科学版)》2019年第1期22-28,共7页陈洋 罗智勇 
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后...
关键词:词向量表示 HOWNET 词语相似性计算 词义消岐 
基于半监督CRF的跨领域中文分词被引量:20
《中文信息学报》2017年第4期9-19,共11页邓丽萍 罗智勇 
北京市哲学社会科学规划研究基地项目(13JDZHB005);中央高校基本科研业务费专项资金(09YB09)
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分...
关键词:跨领域 中文分词 半监督CRF 
SSD模型及其在汉语词性标注中的应用被引量:4
《中文信息学报》2010年第1期20-24,共5页邢富坤 宋柔 罗智勇 
国家自然科学基金资助项目(60572159;60872121)
该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SS...
关键词:计算机应用 中文信息处理 SSD模型 HMM 词性标注 
基于多特征的自适应新词识别被引量:14
《北京工业大学学报》2007年第7期718-725,共8页罗智勇 宋柔 
国家自然科学基金(60272055;60572159);国家'八六三'计划资助项目(2001AA114111);教育部科学技术研究重点项目(00128;107017).
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统...
关键词:自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词 
现代汉语通用分词系统中歧义切分的实用技术被引量:19
《计算机研究与发展》2006年第6期1122-1128,共7页罗智勇 宋柔 
国家自然科学基金项目(60272055);国家"八六三"高技术研究发展计划基金项目(2001AA114111);教育部科学技术研究重点基金项目(00128);教育部人文社会科学重点研究基地重大项目(02JAZJD740007)~~
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交...
关键词:中文信息处理 通用分词系统 歧义切分 
一种基于可信度的人名识别方法被引量:20
《中文信息学报》2005年第3期67-72,86,共7页罗智勇  宋柔  
国家自然科学基金资助项目 (6 0 2 72 0 5 5 ) ;国家 86 3计划资助项目 (2 0 0 1AA114 111) ;教育部科学技术研究重点资助项目 (0 0 12 8)
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了...
关键词:计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度 
检索报告 对象比较 聚类工具 使用帮助 返回顶部