利用谐波显著度和语者音色特征的混合语音中目标人基频轨迹提取  被引量:3

Target pitch trajectory extraction in hybrid speech by using harmonic saliency and speaker’s timbre features

在线阅读下载全文

作  者:后方帅 黎美琪 刘若伦 KOU Fang-shuai;LI Mei-qi;LIU Ruo-lun(Shandong University, Weihai 264209, Shandong, China;The Institute of Acoustics of the Chinese Academy of Sciences, Beijing 100190, China)

机构地区:[1]山东大学,山东威海264209 [2]中国科学院声学研究所,北京100190

出  处:《声学技术》2019年第4期408-413,共6页Technical Acoustics

基  金:上海市信息安全综合管理重点实验室开放基金项目(AGK201709);山东省自然科学基金资助项目(ZR2016FM44)

摘  要:从混合语音中提取出目标语者的基频轨迹,是语音监听、语音门禁、对话管理等应用的关键技术。为提高基频轨迹跟踪的准确率、增强抗八度误差的能力、降低系统复杂度,多基频估计以谐波乘积谱为核心,八度校正与基频分组均以元音段为基本单元,并结合了谐波显著度和语者音色特征。基于MIREX2005语音数据集的实验表明,MIREX的4种多基频估计性能指标均在75%以上,基频分组在混合语音中的判断准确率可达92%。Tracking the pitch trajectory of a target speaker in hybrid speech is of great importance in speech monitoring, voice access, and dialog management. To improve the accuracy of pitch trajectory tracking and enforce the octave error suppression ability while reducing the system complexity, the harmonic product spectrum is used in the multipitch estimation. Both the octave error correction and the pitch grouping are based on the vowel segment unit and using the harmonic saliency and the speaker’s timbre features. In the evaluation over the speech data set of MIREX2005, the four performance indexes of the multipitch estimation are all higher than 75 %, and the accuracy of pitch grouping in the hybrid speech can reach 92 %.

关 键 词:多基频轨迹 谐波乘积谱 语者识别 

分 类 号:H107[语言文字—汉语]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象