国家自然科学基金(60672149)

作品数:10被引量:139H指数:5
导出分析报告
相关作者:黄河燕史树敏周浪张海军冯冲更多>>
相关机构:中国科学院南京理工大学中国科学技术大学北京理工大学更多>>
相关期刊:《中文信息学报》《模式识别与人工智能》《计算机工程与应用》《小型微型计算机系统》更多>>
相关主题:未登录词抽取方法术语抽取中文分词条件随机域模型更多>>
相关领域:自动化与计算机技术理学环境科学与工程更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于分词提取重复串的未登录词遗漏量化模型被引量:5
《中文信息学报》2011年第2期122-128,共7页张海军 史树敏 丁溪源 黄河燕 
国家自然科学基金资助项目(60672149);国家863计划重点资助项目(2006AA010109)
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。...
关键词:未登录词识别 重复串 条件随机域模型 中文分词 
一种基于独立性统计的子串归并算法被引量:1
《计算机工程与应用》2010年第24期129-131,共3页周浪 冯冲 黄河燕 王平尧 
国家高技术研究发展计划(863)(No.2006AA01Z152;No.2006AA010109);国家自然科学基金(No.60672149);宁波科技局重点科技项目(No.2007A310001)~~
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,...
关键词:子串归并 独立性统计 分词碎片 
一种改进的中文字符串排序方法被引量:3
《计算机工程与应用》2010年第19期129-131,共3页张海军 丁溪源 朱朝勇 
国家自然科学基金(No.60672149);国家高技术研究发展计划(863)(No.2006AA010109)~~
对中文字符串排序,最快算法的时间复杂度是O(nlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是O(dn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序算法...
关键词:中文字符串 基数排序 散列表 时间复杂度 
一种应用组合特征的中文未登录词词性猜测研究被引量:4
《小型微型计算机系统》2010年第7期1402-1406,共5页张海军 冯冲 史树敏 黄河燕 
国家自然科学基金项目(60672149)资助;国家"八六三"高技术研究发展计划项目(2006AA010109)资助
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜...
关键词:中文分词 未登录词 条件随机域模型 词性猜测 
基于多策略融合的中文术语抽取方法被引量:28
《情报学报》2010年第3期460-467,共8页周浪 史树敏 冯冲 黄河燕 
国家863高技术研究发展计划资助项目(2006AA01Z152); 国家自然科学基金资助项目(60672149)
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考...
关键词:中文术语抽取 语言规则获取 子串归并 搭配检验 词语活跃度 领域相关度 
中文新词识别技术综述被引量:40
《计算机科学》2010年第3期6-10,16,共6页张海军 史树敏 朱朝勇 黄河燕 
国家自然科学基金项目(60672149);国家863计划重点项目(2006AA010109)资助
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词...
关键词:新词识别 未登录词 候选字串 训练语料 词性猜测 
一种面向术语抽取的短语过滤技术被引量:7
《计算机工程与应用》2009年第19期9-11,共3页周浪 冯冲 黄河燕 
国家自然科学基金(No.60672149);国家高技术研究发展计划(863)(No.2006AA01Z152;No.2006AA010109)~~
在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出...
关键词:术语抽取 短语过滤 左右熵 活跃因子 
一种采用聚类技术改进的KNN文本分类方法被引量:34
《模式识别与人工智能》2009年第6期936-940,共5页张孝飞 黄河燕 
国家自然科学基金项目(No.60672149);国家863计划项目(No.2006AA010109)资助
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档...
关键词:k-最近邻(KNN) 文本分类 文本聚类 聚类中心 自然语言处理 
基于词频分布变化统计的术语抽取方法被引量:27
《计算机科学》2009年第5期177-180,共4页周浪 张亮 冯冲 黄河燕 
国家863高技术研究发展计划项目(2006AA01Z152);国家自然科学基金项目(60672149)资助
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出...
关键词:术语抽取 机器学习 分布方差 知识获取 termhood unithood 
自然语言文本共指消解性能评测算法研究被引量:1
《计算机科学》2008年第9期168-171,177,共5页史树敏 黄河燕 刘东升 
国家863基金项目(2006AA01Z152);国家自然科学基金项目(60672149)资助
在自然语言文本处理中,共指研究处于基础且关键的一环,它的有效解决将为众多的语言工程处理问题提供有力支持,因此对于共指消解性能的评测就显得尤为重要。针对共指消解任务的几种评测算法进行了深入研究,分析各种方法优缺点,指出CEAF...
关键词:共指消解评测 MUC-6算法 B-CUBE算法 ACE-value评测 CEAF算法 
检索报告 对象比较 聚类工具 使用帮助 返回顶部