检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谭磊[1] 余欣洋 罗伟洋 曾维 代云强 Tan Lei;Yu Xinyang;Luo Weiyang;Zeng Wei;Dai Yunqiang(College of Information Science and Technology,Chengdu University of Technology,Chengdu 610059,China)
机构地区:[1]成都理工大学信息科学与技术学院,成都610059
出 处:《单片机与嵌入式系统应用》2020年第9期28-31,35,共5页Microcontrollers & Embedded Systems
基 金:基于图像识别的主动式显示器支架(S201910616036);一种应用于公共交通领域的人包联动管理系统(S201910616037);基于WSN的楼宇灾难应急疏散系统(S201910616133)。
摘 要:随着深度学习技术研究的深入,语音识别同样已经完成了从传统模型到深度学习的过渡,本文主要实现移动端离线状态下的语音识别并提高语音识别的精度。文中采用深度学习的方式,将在电脑上训练好的模型移植到树莓派3b+上进行语音识别操作。项目整体结构可以分为声学模型及语言模型两个部分,同语音识别中其他主流模型进行对比测试后,得到的结论是声学模型DFCNN和语言模型Transformer的编码器部分都适合移植于嵌入式端,在成本远低于市场上既有语音识别产品的情况下,识别效果和速度都非常接近。With the research progress of deep learning technology,speech recognition has also completed the transition from traditional model to deep learning.The main purpose of this paper is to solve the speech recognition under the mobile offline state and improve the accuracy of speech recognition.In the paper,the method of deep learning is used to transplant the model trained on the computer to the Raspberry Pi 3b+for speech recognition.The overall structure of the project can be divided into two parts:acoustic model and language model.Comparing with other mainstream models in speech recognition,the conclusion is that the encoder part of the acoustic model DFCNN and the language model Transformer are suitable for transplantation on the embedded end.The recognition effect and speed are very close when the cost is much lower than that of the existing speech recognition products on the market.
关 键 词:深度学习 嵌入式系统 语音识别 声学模型 语言模型
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.137.136.226