基于语速差异的新闻发布会中首要说话人检测  

Speaking rate differences based chief speakers detection in press conferences recordings

在线阅读下载全文

作  者:吴伟[1] 李艳雄[1] 王梓里 陈祝允 

机构地区:[1]华南理工大学电子与信息学院,广州510640

出  处:《计算机工程与应用》2015年第4期222-225,231,共5页Computer Engineering and Applications

基  金:国家自然科学基金项目(No.61101160);广州市珠江科技新星专项(No.2013J2200070);中央高校基本科研业务费专项资金重点项目(No.2013ZZ053);国家级大学生创新训练项目(No.201210561046);广东省大学生创新训练项目(No.1056112028)

摘  要:新闻发布会中,首要说话人(例如政府要员)通常要即兴回答记者事先准备好的问题。因而首要说话人语速一般很慢,而其他说话人(例如记者、翻译等)语速则相对较快。基于两者的语速差异,采用一个滑动窗从连续语音流中截取语音段,再估计各音段语速得到一条语速曲线,然后寻找语速曲线中的局部最小值进而得到两类说话人的改变点,最后将语速低于门限且在两相邻改变点之间的语音段判为首要说话人语音,从而实现首要说话人检测。实验结果表明,与传统方法相比,基于语速差异的方法获得了更好的性能。Chief speakers(e.g.politicians)generally impromptu answer prepared journalists in press conferences. Therefore,the speaking rate of chief speakers is slow while that of other speakers(e.g.journalists, interpreters)is quick. Based on the difference of speaking rate between the two kinds of speakers, a sliding window is used to extract voice from continuous audio stream, so that speaking rates of each window are estimated to obtain a rate curve where local minima can be found to determine change points. Finally, speech segments who satisfy speaking rates lower than a rate threshold and between two adjacent change points are distinguished as chief speakers' voice. The experimental results show that the proposed method gets better performance in comparison with traditional methods.

关 键 词:新闻发布会语音 语速差异 首要说话人 说话人分割 说话人聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TN912.3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象