国家重点基础研究发展计划(G1998030507)

作品数:12被引量:308H指数:8
导出分析报告
相关作者:孙茂松苑春法邹嘉彦周强朱小燕更多>>
相关机构:清华大学香港城市大学香港中文大学香港理工大学更多>>
相关期刊:《当代语言学》《清华大学学报(自然科学版)》《计算机工程与应用》《中文信息学报》更多>>
相关主题:汉语中文信息处理自然语言处理汉语自动分词人工智能更多>>
相关领域:自动化与计算机技术语言文字电子电信更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
短语树到依存树的自动转换研究被引量:12
《中文信息学报》2005年第3期21-27,共7页党政法 周强 
国家自然科学基金资助项目 (6 990 30 0 7;6 0 1730 0 8) ;国家 973基金资助项目 (G19980 30 5 0 7) ;国家 86 3计划资助项目 (2 0 0 1AA114 0 4 0 )
不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(TsinghuaChineseTreebank ,简称TCT)标注体系的特点,提出了一种将TCT从短语结构转换成...
关键词:人工智能 自然语言处理 树库 短语树 依存树 自动转换 
基于决策树的汉语未登录词识别被引量:23
《中文信息学报》2004年第1期14-19,共6页秦文 苑春法 
国家自然科学基金资助项目 (6 9975 0 0 8);国家重点基础研究 973资助项目 (G19980 30 5 0 7)
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和...
关键词:人工智能 自然语言处理 未登录词识别 数据挖掘 决策树 C4.5算法 
多值因果图的推理算法研究被引量:7
《计算机学报》2003年第3期310-322,共13页樊兴华 张勤 孙茂松 黄席樾 
国家"九七三"重点基础研究发展规划项目 (G19980 3 0 5 0 7);中国教育部博士点基金 ( 990 61116);重庆市科委攻关项目 ( 5 990 )
针对多值因果图存在的两个困难 :(1)不严格满足概率论 ;(2 )将其用于实际问题时 ,推理结果可能出现错误 ,提出了一种基于因果影响可能性分配的推理算法 .该算法将多值因果图的推理分成 3个阶段 ,首先对多值因果图进行补充定义 ,使多值...
关键词:不确定性推理 多值因果图 可能性分配 推理算法 模糊知识表达 信度网 人工智能 
基于字串内部结合紧密度的汉语自动抽词实验研究被引量:32
《中文信息学报》2003年第3期9-14,共6页罗盛芬 孙茂松 
国家 973资助项目 (G19980 30 5 0 7)
自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽...
关键词:计算机应用 中文信息处理 自动抽词 统计量的组合 遗传算法 
参数共享在语音识别中的应用
《清华大学学报(自然科学版)》2002年第10期1374-1376,共3页郭锐 朱小燕 
国家自然科学基金资助项目 ( 6 9982 0 0 5) ;国家重点基础研究发展计划项目 ( G19980 30 50 7);高等学校骨干教师资助计划赞助
参数共享是基于隐 Markov模型 (hidden Markovmodel,HMM)的语音识别系统的参数训练中的一个关键性问题 ,因此在语音识别的诸多领域中都有重要的应用。对参数共享的作用及其使用的聚类算法进行了分析研究 ,在此基础上提出改进合并分级聚...
关键词:语音识别 隐MARKOV模型 参数共享 聚类算法 状态捆绑 参数训练 
汉语基本短语的自动识别被引量:41
《中文信息学报》2002年第6期1-8,共8页张昱琪 周强 
国家自然科学基金项目 (6 990 30 0 7) ;国家 973基金项目 (G19980 30 5 0 7) ;国家 86 3计划项目 (2 0 0 1AA114 0 4 0 )
本文应用基于实例的MBL(Memory BasedLearning)学习方法 ,对汉语中较常见的 9种基本短语的边界及类别进行识别 ,并利用短语内部构成结构和词汇信息对预测中出现的边界歧义和短语类型歧义进行了排歧处理。实验中还比较了在特征向量中加...
关键词:部分分析 基本短语 实例学习 短语结构 词汇排放 短语识别 自然语言处理 汉语句法分析 
中文金融新闻中公司名的识别被引量:53
《中文信息学报》2002年第2期1-6,共6页王宁 葛瑞芳 苑春法 黄锦辉 李文捷 
国家自然科学基金(6 9975 0 0 8);国家重点基础研究 973(G19980 30 5 0 7)项目支持
在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别...
关键词:公司名 金融领域 专名识别 信息抽取 金融新闻 中文识别 识别策略 
基于神经元网络的汉语短语边界识别被引量:6
《中文信息学报》2002年第2期20-26,共7页奚晨海 孙茂松 
国家重点基础研究发展规划项目的支持 (编号 :G19980 30 5 0 7)
短语边界的识别是浅层句法分析或组块分析的基础 ,对真实文本的处理具有重要意义。在一个含有 6 442 6词的汉语树库的支持下 ,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示 ,该模型的界定准确率为 93 2...
关键词:汉语短语边界自动识别 神经元网络 中文信息处理 浅层句法分析 组块分析 文字识别 
利用上下文信息解决汉语自动分词中的组合型歧义被引量:24
《计算机工程与应用》2001年第19期87-89,106,共4页肖云 孙茂松 邹嘉彦 
国家重点基础研究发展规划项目资助课题(课题编号:G1998030507)
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分...
关键词:自然语言处理 中文计算 汉语自动分词 组合型歧义切分字段 中文信息处理 
汉语自动分词研究评述被引量:102
《当代语言学》2001年第1期22-32,共11页孙茂松 邹嘉彦 
国家自然科学基金(项目号:69705005);国家重点基础研究发展规划项目(项目号:G1998030507)
本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。
关键词:汉语 自动分词 中文信息处理 语言资源 歧义 
检索报告 对象比较 聚类工具 使用帮助 返回顶部