统计语言模型

作品数:106被引量:473H指数:11
导出分析报告
相关领域:自动化与计算机技术电子电信更多>>
相关作者:黄永文郑方吴文虎何中市荀恩东更多>>
相关机构:清华大学哈尔滨工业大学重庆大学北京邮电大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划教育部科学技术研究重点项目更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=中文信息学报x
条 记 录,以下是1-10
视图:
排序:
基于统计语言模型改进的Word2Vec优化策略研究被引量:13
《中文信息学报》2019年第7期11-19,共9页张克君 史泰猛 李伟男 钱榕 
国家重点研发计划(2018YFB1004101);国家自然科学基金(61170037)
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,...
关键词:词向量 统计语言模型 TFIDF 文本关键词 CBOW-TFIDF 
交通数据中的会话识别
《中文信息学报》2016年第1期162-169,共8页娄新燕 刘洋 禹晓辉 
国家自然科学基金(61272092;61572289);山东省自然科学基金(ZR2012FZ004;ZR2015FM002)
会话识别因其能够提供对用户行为模式的深入理解而备受关注。交通数据会话是指用户为了完成某个任务而经过的交通路口序列。该文中我们采用超时和统计语言模型两种方法来进行会话识别。超时方法主要考察相邻交通路口之间的时间间隔对会...
关键词:会话识别 超时方法 统计语言模型 
基于条件随机场的蒙古语词切分研究被引量:13
《中文信息学报》2010年第5期31-35,84,共6页赵伟 侯宏旭 从伟 宋美娜 
973前期研究项目资助(2007CB316503)
词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息。利用这些语法信息有助于使用计算机对蒙古语进行有效处理。蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各...
关键词:蒙古语 词切分 词干 构形附加成分 条件随机场 统计语言模型 
词汇搭配和用户模型在拼音输入法中的应用被引量:6
《中文信息学报》2007年第4期105-110,共6页张玮 孙乐 冯元勇 李文波 黄瑞红 
中文输入法是中文信息处理的难题之一。随着互联网上中文用户的不断增加,中文输入法的重要性也变得日益突出。本文在对句子中长距离词汇依赖现象观察的基础上,抽取出语料库中的词汇搭配来获取长距离特征,并以此构建基于词汇搭配关系的...
关键词:计算机应用 中文信息处理 中文输入法 中文信息处理 统计语言模型 词汇搭配 长距离特征 用户模型 
基于混合语言模型的文档相似性计算模型被引量:2
《中文信息学报》2006年第4期41-48,共8页李晓光 于戈 王大玲 
国家自然科学基金资助项目(60573090;60503036;60473073)
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响...
关键词:人工智能 自然语言处理 文档相似性 统计语言模型 混合模型 EM算法 
基于trigram语体特征分类的语言模型自适应方法被引量:6
《中文信息学报》2006年第4期68-74,共7页梁奇 郑方 徐明星 吴文虎 
本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元...
关键词:计算机应用 中文信息处理 统计语言模型 trigram 自适应 语体 插值算法 
应用二叉树剪枝识别韵律短语边界被引量:4
《中文信息学报》2006年第3期1-5,28,共6页荀恩东 钱揖丽 郭庆 宋柔 
国家自然科学基金资助项目(60573184)
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应...
关键词:人工智能 自然语言处理 统计语言模型 二叉树 韵律短语 最大熵 
基于互信息的统计语言模型平滑技术被引量:8
《中文信息学报》2005年第4期46-51,共6页黄永文 何中市 
国家自然科学基金资助项目(60173060)
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题。现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析。本文则针对二元模型,提出了一种基于互信息的平滑技术,其基...
关键词:计算机应用 中文信息处理 统计语言模型 平滑技术 互信息 困惑度 
一种在线递增式语言模型自适应方法被引量:4
《中文信息学报》2002年第1期60-65,共6页吴根清 郑方 金凌 吴文虎 
本文针对传统统计语言模型的离线自适应方法 ,提出了一种在线实时的递增式自适应方法。该自适应方法需要解决几个问题。第一是要设计一种语言模型结构以适应在线的自适应 ;第二是如何利用在线收集到的语料对语言模型进行实时的参数修改 ...
关键词:统计语言模型 N-GRAM 自适应 语音识别 
一种词义与词的混合语言模型及其应用
《中文信息学报》2001年第6期7-12,共6页侯珺 王作英 
国家"九八五"重大项目 (人机自然语言交互技术 ) (985校 22攻关0 6 )
本文提出了一种基于词和词义混合的统计语言模型 ,研究了这个模型在词义标注和汉语普通话语音识别中的性能 ,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系 ,在词义标注中具...
关键词:统计语言模型 词义模型 词义标注 语音识别 混淆度 存储空间 混合模型 
检索报告 对象比较 聚类工具 使用帮助 返回顶部