基于多尺度分形维数的汉语语音声韵切分  被引量:14

Multiscale fractal dimension based I/F segmentation for Mandarin speech

在线阅读下载全文

作  者:王帆[1,2] 郑方[1,2] 吴文虎[1,2] 

机构地区:[1]清华大学计算机科学与技术系 [2]智能技术与系统国家重点实验室,北京100084

出  处:《清华大学学报(自然科学版)》2002年第1期68-71,共4页Journal of Tsinghua University(Science and Technology)

摘  要:针对低信噪比环境 ,提出一种汉语语音声韵母切分新方法。以语音信号非线性产生机制中存在混沌特性为依据 ,将普通分形维数扩展为多尺度分形维数 ,用于考察语音信号在不同最大观测分辨率下的局部自相似性。利用稳定声韵母段及其之间过渡段在多尺度分形维数上的不同特性能较好地区分二者。由此针对汉语音节“声母 +韵母”的结构特点设计了一种简单而高效的汉语语音声韵母切分方法。在干净语音测试集下测试 ,切分正确率为 95 .2 % ;在信噪比为10 d B的噪声环境下 ,正确率达到 82 .3%。This paper presents a new algorithm for Mandarin speech Initial and Final (I/F) segmentation in adverse environments based on the multiscale fractal dimension. Based on the chaotic characteristics of speech production, the concept and computational method of multiscale fractal dimension (MFD) is extended from the traditional fractal dimension to show the local self similar behavior at multiple maximum resolutions of computation. Analysis of the disparate characteristics in MFD can distinguish clearly between the stable phonemes (Initial and Final parts) and their transient region. So the new segmentation algorithm can directly search the speech frame with the minimum r variance of MFD (the degree of the difference from all elements in a MFD) as the I/F segmentation boundary, due to the special I+F structure of the Mandarin syllable. A segmentation accuracy of 95.2% is obtained for clean speech and 82.3% for noisy speech with the SNR of 10 dB.

关 键 词:声韵切分 汉语语音识别 多尺度分形维数 局部自相似性 数字语音处理 信噪比 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象