检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王梓赫 张培茗[1] 司博宇 WANG Zihe;ZHANG Peiming;SI Boyu(School of Health Science and Engineering,University of Shanghai for Science and Technology,Shanghai 200093;School of Medical Instrument,Shanghai University of Medicine and Health Sciences,Shanghai 201318)
机构地区:[1]上海理工大学健康科学与工程学院,上海200093 [2]上海健康医学院医疗器械学院,上海201318
出 处:《北京生物医学工程》2024年第6期613-618,共6页Beijing Biomedical Engineering
摘 要:目的为客观评估自动语音识别(automatic speech recognition,ASR)系统的词错率(word error rate,WER),满足言语能力受损人群的康复需求,促进特殊人群客观言语能力评估体系构建,本研究提供了一种直接根据深度神经网络(deep neural network,DNN)发出的音素后验概率预测WER的方法,而不是计算参考转录文本与隐马尔可夫(hidden Markov model,HMM)解码的转录文本之间的WER。方法通过对语音信号进行特征提取并将其输入到DNN模型中以计算音素后验概率图(phonetic posterior grams,PPG)。通过PPG计算出反映ASR系统WER的3种性能指标以达到预测目的。最后,对在4种真实声学场景下所得WER预测数据进行分析,验证其有效性。同时,研究还搭建了20种不同深度、宽度的声学模型进行性能评估对比,探究了模型规模对预测效果的影响。结果根据20种模型WER评估的数据,其中具有2层隐藏层且每层含512个神经元的网络模型对WER数据预测误差达到最小,省略ASR系统解码步骤而得到可靠的WER预测数据。结论使用基于音素概率的性能指标可以实现对WER的有效预测,并且可以摆脱参考转录文本和单词标签的限制。Objective This study aims to assess the word error rate(WER) of automatic speech recognition(ASR) systems to support the rehabilitation needs of individuals with speech impairments.A novel approach is introduced,using phoneme posterior probabilities from a deep neural network(DNN) to predict WER,instead of calculating WER between reference transcripts and hidden Markov model(HMM)-decoded transcripts.Methods Speech signals are processed through feature extraction and input to a DNN model,generating phonetic posterior grams(PPG).Three performance metrics derived from PPG reflect WER.The predicted WER data from real acoustic scenarios are analyzed for contrast and validation.Additionally,20 diverse acoustic models are built and evaluated,investigating the impact of model size on prediction accuracy.Results Among the evaluated models,a network with 2 hidden layers,each containing 512 neurons,achieves the most accurate WER prediction,bypassing ASR decoding and providing dependable results.Conclusions Phoneme probability-based metrics effectively predict WER and remove dependency on reference transcripts and word labels.
关 键 词:深度神经网络 隐马尔科夫 自动语音识别系统 系统性能评估 音素后验概率图
分 类 号:R318[医药卫生—生物医学工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.135.50