多人会话混合语音的说话人分割  

Speaker Segmentation Based on Mixed Voice of Multiple Speakers

在线阅读下载全文

作  者:李艳妮 张二华[1] LI Yanni;ZHANG Erhua(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094)

机构地区:[1]南京理工大学计算机科学与工程学院,南京210094

出  处:《计算机与数字工程》2020年第7期1558-1563,1622,共7页Computer & Digital Engineering

基  金:军委装备发展部十三五装备预研领域基金项目(编号:61403120102)资助。

摘  要:利用说话人信息自动管理海量混合语音是一个重要的研究课题,为了提高多人会话场景下短语音的说话人分割正确率,论文研究了一种基于高斯混合模型和多尺度分析的说话人分割算法。在提高短语音说话人识别率的基础上,该算法综合使用端点检测和多尺度分析来实现说话人分割,并引入分帧概率来优化说话人分割效果。实际汉语分割实验结果表明,对由一系列短语音(小于3s)交替组成的多人混合语音,该算法取得了较好的分割效果。It is an important research topic to automatically manage massive mixed speech by speaker information.This paper proposes a speaker segmentation algorithm based on Gaussian mixture model and multi-scale analysis in order to improve the accu⁃racy of speaker segmentation of short utterance in multi-person conversation.This algorithm is used to endpoint detection with multi-scale analysis to achieve speaker segmentation,on the basis of improving the speaker recognition rate of short utterance,frame-division probability is applied to optimize the effect of speaker segmentation.The experimental results of Chinese segmenta⁃tion show that the algorithm achieves good segmentation results for mixed voice of multiple speakers composed of a series of short ut⁃terance(less than 3s).

关 键 词:短语音 说话人分割 高斯混合模型 多尺度分析 说话人识别 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象