检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100080
出 处:《中文信息学报》2007年第4期73-79,共7页Journal of Chinese Information Processing
基 金:国家863计划资助项目(2006AA010103)
摘 要:语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度(PPL)的背景语料筛选方法和一个N-gram概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10%,实体词识别准确率提高了4%。The purpose of language model (LM) adaptation is to reduce the linguistic mismatches between training corpus and recognition tasks. This paper proposed a new non-iterative new words extraction approach for Chinese and a novel open-vocabulary Chinese LM. To reduce lexicon mismatch, topic and stylc mismatch and n gram distribution mismatch, we also present a unified LM adaptation framework which combines our non-iterative new words extraction approach, a novel open-vocabulary Chinese LM, a perplexity-based corpus selection approach and an ngram distribution adaptation module. The recognition accuracy of name entity words is also analyzed as an effect of LM adaptation. Experiments showed about 10% relative character error rate reduction and 4% (absolute) recognition accuracy increase of name entity words.
关 键 词:计算机应用 中文信息处理 语言模型自适应 新词提取 开放式词典
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15