诺明花

作品数:11被引量:65H指数:6
导出分析报告
供职机构:中国科学院软件研究所更多>>
发文主题:藏文信息处理中文信息处理藏文音节短语抽取藏文更多>>
发文领域:自动化与计算机技术语言文字电子电信更多>>
发文期刊:《计算机工程与应用》《信息技术与标准化》《通信学报》《中文信息学报》更多>>
所获基金:国家自然科学基金中国科学院西部行动计划项目国家科技重大专项国家高技术研究发展计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于大规模网络语料的藏文音节拼写错误统计与分析被引量:6
《中文信息学报》2017年第2期61-70,共10页刘汇丹 洪锦玲 诺明花 吴健 
国家自然科学基金(61202219;61303165);中国科学院信息化专项(XXH12504-1-10);新闻出版重大科技工程(0610-1041BJNF 2328/23)
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700...
关键词:藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理 
基于藏语字性标注的词性预测研究被引量:7
《中文信息学报》2015年第5期211-215,共5页龙从军 刘汇丹 诺明花 吴健 
国家自然科学基金(61202219;61303165;61132009);中国科学院信息化专项经费资助(XXH12504-1-10);中国社科院创新工程项目
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。...
关键词:藏语 语字标注 分词 词性标注 
传统蒙古文“同形不同码”问题研究
《信息技术与标准化》2015年第1期62-66,共5页安波 诺明花 吴健 刘汇丹 马龙龙 
国家自然科学基金;项目编号:61303165;61202219;61202220;新闻出版重大科技工程;项目编号:0610-1041BJNF 2328/23
设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出...
关键词:传统蒙古文 同形不同码 爬虫 倒排索引 语料库 
Web藏文文本资源挖掘与利用研究被引量:6
《中文信息学报》2015年第1期170-177,共8页刘汇丹 诺明花 马龙龙 吴健 贺也平 
国家自然科学基金(61202219;61202220;61303165);中国科学院信息化专项经费资助(XXH12504-1-10)
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧...
关键词:WEB 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理 
基于中心语块扩展的汉藏基本名词短语对的识别被引量:1
《中文信息学报》2013年第4期63-69,共7页诺明花 刘汇丹 马龙龙 吴健 丁治明 
国家重大科技专项资助项目(2010ZX01036-001-002;2010ZX01037-001-002);国家自然科学基金资助项目(61202219;61202220)
该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交...
关键词:藏文信息处理 基本名词短语 中心语块扩展 
基于关联度的汉藏多词单元等价对抽取方法被引量:1
《中文信息学报》2012年第3期98-103,共6页诺明花 刘汇丹 吴健 丁治明 
中国科学院"西部行动计划高新技术项目"(KGCX2-YW-512)
针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CM...
关键词:藏文信息处理 多词单元 关联度 
SegT:一个实用的藏文分词系统被引量:25
《中文信息学报》2012年第1期97-103,共7页刘汇丹 诺明花 赵维纳 吴健 贺也平 
国家重大科技专项资助项目(2010ZX01036-001-002;2010ZX01037-001-002);中国科学院西部行动计划资助项目(KGCX2-YW-512)
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,...
关键词:藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理 
汉藏短语对抽取中短语译文获取方法研究被引量:7
《中文信息学报》2011年第3期112-117,共6页诺明花 吴健 刘汇丹 丁治明 
中国科学院"西部行动计划高新技术项目"资助
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)...
关键词:藏文语块 短语译文获取 藏文信息处理 中文信息处理 
汉藏短语抽取被引量:5
《中文信息学报》2011年第2期105-110,121,共7页诺明花 张立强 刘汇丹 吴健 丁治明 
中国科学院"西部行动计划高新技术项目"资助(KGCX2-YW-512)
该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交...
关键词:汉藏短语抽取 藏文信息处理 中文信息处理 
基于核方法的敏感信息过滤的研究被引量:8
《通信学报》2008年第4期57-62,共6页李文波 孙乐 诺明花 吴健 
国家自然科学基金资助项目(60773027,60736044);国家高技术研究发展计划(“863”计划)基金资助项目(2006AA010108);国家信息安全计划(“242”计划)基金资助项目(2005A18,2006A40)~~
在深入分析敏感信息过滤任务的特点和难点的基础上,针对现有一般的信息过滤方法的不足,提出了一种利用敏感词的组合信息来改进过滤效果的思想。进而,研究了在核方法的框架下特征共现行为建模的原则并提出了复合ANOVA核来刻画特征组合行...
关键词:信息过滤 内容安全 核方法 特征空间 
检索报告 对象比较 聚类工具 使用帮助 返回顶部