基于CART技术的汉语韵律短语分析  被引量:1

A CART-based Prosodic Phrasing Method for Chinese Text-to-Speech

在线阅读下载全文

作  者:谌卫军[1] 林福宗[1] 李建民[1] 张钹[1] 

机构地区:[1]清华大学计算机科学与技术系

出  处:《计算机科学》2002年第4期50-52,共3页Computer Science

基  金:国家自然科学基金(69823001);973项目(G1998030509)

摘  要:韵律短语分析是文语转换(Text-to-Speech,TTS)系统中的一项重要内容。它负责在输入文本的不同位置上,标记上不同级别的符号形式的韵律短语边界,从而把一个句子分隔成不同层次的短语。韵律短语分析的结果直接影响着TTS系统的后继步骤,如韵律参数的生成。杨玉芳研究了不同级别的韵律短语边界与附近音节的时长、停顿、基频等韵律参数之间的关系,考察了这些参数随边界等级的系统变化。此外,在口语理解等应用系统中,韵律短语分析也有可用之处。因为口语理解的一个难点在于自然语言存在着歧义现象:即便是完全相同的一个句子,如果在表述时断句的位置不同,就可能产生完全不同的含义。The prediction of prosodic phrase boundaries is an important step for a TTS system. This paper proposes a new method of phrasing which uses Classification and Regression Trees (CART) techniques to generate decision tree automatically. First, the principle of CART is introduced and two improvements are proposed. Second we collect 559 sentences (of approximately 78 min length) and built a speech corpus. The prosodic boundaries are manually marked and word identification. POS tagging and syntactic analysis are also done on the text. And 22 features for modeling prosody are proposed. Lastly, a decision tree is trained on 371 sentences, and tested on 188. The success rate is 92.9%.

关 键 词:自然语言处理 信息处理 汉语韵律 短语分祈 CART 人工神经网络 文语转换系统 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象