检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]同济大学计算机科学与工程系
出 处:《微型电脑应用》2005年第4期52-55,共4页Microcomputer Applications
摘 要:多音字现象的存在给汉语TTS(TexttoSpeech)系统增加了难度。本文旨在提出一种解决中文TTS系统中的多音字判决问题的统一方案。这种方案基于统计学习的思想。首先构造一个基于特征的词典,该词典可以根据学习的语料动态更新。在有权值和无权值两种更新词典的方法中,通过试验对比最终选择了无权值的方法。我们采取建立规则的办法作为对词典的补充,分别用分类回归树(CART)、扩展的随机复杂度(ESC)进行了实验。通过实验,最终以CART生成的局部规则对词典进行补充,得到了较为满意的效果。The phenomenon of polyphone characters in Chinese increases the difficulty of Mandarin TTS (Text to Speech) system. This thesis is aimed to propose a unified approach to the polyphone decision in Mandarin TTS. The method is based on the thinking of statistical learning. First, we construct a lexicon based on multi-features, which can update automatically according to the corpus in learning. Both of the weighted and unweighted methods are used to update the lexicon. Eventually we choose the unweighted one due to its higher accuracy. We make experiments with classification and regression tree (CART) as well as extended stochastic complexity (ESC). Through experiments, we achieve a relatively satisfactory result using CART to create partial rules as the complement to the lexicon.
关 键 词:TTS系统 解决方案 汉语 字问题 分类回归树 统计学习 基于特征 动态更新 试验对比 CART 多音字 词典 权值 复杂度 实验
分 类 号:TP301.5[自动化与计算机技术—计算机系统结构] TN912.33[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28