国家高技术研究发展计划(2001AA114111)

作品数:9被引量:60H指数:4
导出分析报告
相关作者:宋柔熊文新罗智勇许勇钱揖丽更多>>
相关机构:北京语言大学北京工业大学北京外国语大学更多>>
相关期刊:《计算机工程与应用》《北京工业大学学报》《计算机研究与发展》《计算机工程》更多>>
相关主题:信息检索自然语言处理现代汉语中文信息处理歧义切分更多>>
相关领域:自动化与计算机技术文化科学更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-9
视图:
排序:
信息检索技术的发展及其应用被引量:1
《中国科技信息》2008年第10期77-77,79,共2页魏琳 
国家自然科学基金项目(60272055);国家863计划项目(2001AA114111);教育部人文社会科学重点研究基地重大项目(02JAZJD740007);教育部科学技术研究重点项目(00128)
本文主要介绍了几种检索技术,以及它们在搜索引擎中的应用;比较分析了目前各种搜索引擎的优点和不足之处。
关键词:搜索引擎 搜索技术 信息检索 
基于半CRF模型的百科全书文本段落划分被引量:2
《北京工业大学学报》2008年第2期204-210,共7页许勇 宋柔 
国家自然科学基金(60272055);国家“八六三”计划资助项目(2001AA114111)
介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语...
关键词:自然语言处理 机器学习 隐马尔科夫模型 文本段落划分 半条件随机域模型 
信息检索需求描述中的词语区域凸显
《计算机科学》2008年第2期181-184,共4页熊文新 宋柔 
国家自然科学基金项目(60272055);国家863项目(2001AA114111);教育部科学技术研究重点资助项目(00128)
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×ID...
关键词:信息检索 主题词语 凸显 描述域 功能块 
基于多特征的自适应新词识别被引量:14
《北京工业大学学报》2007年第7期718-725,共8页罗智勇 宋柔 
国家自然科学基金(60272055;60572159);国家'八六三'计划资助项目(2001AA114111);教育部科学技术研究重点项目(00128;107017).
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统...
关键词:自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词 
信息检索用户查询语句的停用词过滤被引量:16
《计算机工程》2007年第6期195-197,共3页熊文新 宋柔 
国家自然科学基金资助项目(60272055);国家"863"计划基金资助项目(2001AA114111);教育部科学技术研究资助重点项目(00128);教育部人文社会科学重点研究基地资助重大项目(02JAZJD740007)
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选...
关键词:用户查询 停用词 构造 识别 
基于SLM的二叉树在语音停顿预测中的应用被引量:2
《计算机工程》2006年第19期23-25,28,共4页钱揖丽 荀恩东 宋柔 
国家自然科学基金资助项目(60272055);国家"863"计划基金资助项目(2001AA114111);教育部科学技术研究重点基金资助项目(00128)
讨论基于统计语言模型SLM(Statistic Language Model)的二叉树在语音停顿预测中的应用。基于大规模语料,利用三元模型Trigram,建立统计语言模型;基于SLM为待处理句子生成相应的二叉树;将生成的二叉树所包含的信息,从不同角度应用于语音...
关键词:统计语言模型 二叉树 语音停顿 预测 
信息检索自然语言查询问句处理框架被引量:3
《计算机科学》2006年第10期144-147,204,共5页熊文新 宋柔 
国家自然科学基金资助项目(60272055);国家863计划资助项目(2001AA114111);教育部科学技术研究重点资助项目(00128)。
以自然语言形式提出的查询问句不同于通常的关键词或主题词查询,需要提取用户真正要检索的信息内容。该文提出一个自然语言查询语句的处理框架,由3个部分构成:(1)离析查询问句的操作表述和信息内容;(2)凸显真正的信息需求内容;(3)对不...
关键词:信息检索 查询请求 查询表述 
现代汉语通用分词系统中歧义切分的实用技术被引量:19
《计算机研究与发展》2006年第6期1122-1128,共7页罗智勇 宋柔 
国家自然科学基金项目(60272055);国家"八六三"高技术研究发展计划基金项目(2001AA114111);教育部科学技术研究重点基金项目(00128);教育部人文社会科学重点研究基地重大项目(02JAZJD740007)~~
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交...
关键词:中文信息处理 通用分词系统 歧义切分 
基于HMM的百科辞典文本中句子的知识点分类被引量:5
《计算机工程与应用》2005年第4期35-37,133,共4页许勇 宋柔 
国家自然科学基金(编号:60272055);国家863高技术研究发展计划(编号:2001AA114111)资助
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这...
关键词:HMM 百科辞典知识获取 自然语言处理 
检索报告 对象比较 聚类工具 使用帮助 返回顶部