黄浩

作品数:50被引量:103H指数:6
导出分析报告
供职机构:上海交通大学更多>>
发文主题:语音识别区分性声学模型汉语语音识别文本分类更多>>
发文领域:自动化与计算机技术电子电信文化科学经济管理更多>>
发文期刊:《水力发电》《计算机工程》《信号处理》《自动化学报》更多>>
所获基金:国家自然科学基金博士科研启动基金新疆维吾尔自治区自然科学基金国家高技术研究发展计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于MEGA网络和分层预测的标点恢复方法
《计算机工程》2024年第12期396-406,共11页张文博 黄浩 吴迪 唐敏杰 
科技创新2030-“新一代人工智能”重大项目(2020AAA0107902)。
标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型...
关键词:标点恢复 自然语言处理 预训练模型 Transformer结构 分层预测 
引入预训练表示混合矢量量化和CTC的语音转换
《计算机工程》2024年第4期313-320,共8页王琳 黄浩 
新疆维吾尔自治区重点实验室开放课题(2020D04047)。
预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型...
关键词:预训练表示 自监督学习 矢量量化 解耦 联结时序分类 
引入非局部模块卷积神经网络的基频提取模型被引量:3
《计算机工程》2023年第3期128-133,160,共7页刘晶晶 黄浩 
国家重点研发计划(2020AAA0107902);国家自然科学基金(61663044,61761041);新疆多语种信息技术重点实验室开放课题(2020D04047)。
基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全...
关键词:基频 语音信号处理 数据驱动 卷积神经网络 非局部模块 
基于时域的基频感知语音分离方法被引量:2
《新疆大学学报(自然科学版)(中英文)》2022年第2期182-188,共7页王凯 李鸣鹤 黄志华 黄浩 
新疆多语种信息技术重点实验室开放课题(2020D04047);国家重点研发项目(2020AAA0107902);国家自然科学基金项目(61663044,61761041)。
传统的单通道语音分离方法主要采用混音作为输入,对其进行分离得到目标说话人的语音.最近的研究表明,将预估计的基频信息注入到原始混音信号中能够提高分离效果,但这种方法最初应用于时频域.近年来,基于时域的语音分离方法已经被验证优...
关键词:语音分离 单通道 基频 时域 
融合LDA的门控图卷积网络文本分类研究
《东北师大学报(自然科学版)》2021年第4期68-76,共9页高维奇 黄浩 胡英 吾守尔·斯拉木 
国家重点研发计划项目(2017YFB1402101);国家自然科学基金资助项目(61663044,61761041);新疆重点科技项目(2016A03007-1);新疆高等教育创新项目(XJEDU2017T002).
在现有文本图基础上引入隐狄利克雷分布,将文档-主题和主题-词信息融入文本图以丰富文本图中节点间关系,之后将该文本图送入一个基于图卷积网络门控机制模型.在多个数据集上进行验证.结果表明,所提出的模型优于现有图卷积网络文本分类模型.
关键词:文本分类 图卷积网络 隐狄利克雷分布 门控机制 文本图 
基于多任务学习的端到端维吾尔语语音识别被引量:1
《信号处理》2021年第10期1852-1859,共8页苏比·艾依提 努尔麦麦提·尤鲁瓦斯 黄浩 吾守尔·斯拉木 
国家自然科学基金(62066043)。
维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低。针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(C...
关键词:CONFORMER 链接时序分类 多任务学习 子词 维吾尔语 
基于深度神经网络的说话人年龄分类研究被引量:1
《现代电子技术》2021年第10期120-124,共5页杨治学 黄浩 胡英 吾守尔·斯拉木 
国家重点研发计划(2017YFB1402101);国家自然科学基金资助项目(61663044);国家自然科学基金资助项目(61761041)。
说话人年龄分类是通过说话人的语音来估测说话人的年龄范围,属于说话人属性分析的重要内容。传统说话人年龄分类是利用人工提取特征加后端分类器的方法,这种方法不一定能够得到最优的分类效果。针对该问题,利用深度神经网络自动获取特...
关键词:说话人年龄分类 深度神经网络 语音特征提取 说话人识别 数据分析 比较实验 
注意力机制对生成对抗网络语音增强迁移学习模型的影响被引量:2
《声学技术》2021年第1期77-81,共5页曹中辉 黄志华 葛文萍 黄浩 
新疆维吾尔自治区自然科学基金项目资助(2017D01C044)。
基于深度学习的语音增强模型对训练集外语言语音和噪声进行降噪时,性能明显下降。为了解决这一问题,提出一种引入注意力机制的生成对抗网络(Generative Adversarial Network,GAN)语音增强迁移学习模型。在生成对抗语音增强模型的判别模...
关键词:生成对抗网络(GAN) 语音增强 迁移学习 跨语言语音增强 注意力机制 
基于卷积非负矩阵部分联合分解的强噪声单声道语音分离被引量:3
《自动化学报》2020年第6期1200-1209,共10页董兴磊 胡英 黄浩 吾守尔·斯拉木 
国家自然科学基金(61761041,61663044);国家自然科学基金青年基金(61603323);新疆维吾尔自治区自然科学基金(2016D01C061);新疆大学自然科学基金(BS160239);新疆自治区高校科研计划项目(XJ EDU2017T002)资助。
非负矩阵部分联合分解(Nonnegative matrix partial co-factorization,NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解,以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix fact...
关键词:卷积非负矩阵分解 非负矩阵部分联合分解 语音分离 强噪声 单声道 
集成学习在短文本分类中的应用研究被引量:6
《现代电子技术》2019年第24期140-145,共6页王国薇 黄浩 周刚 胡英 
国家重点研发计划项目(2017YFB1402101);国家自然科学基金(61663044);国家自然科学基金(61761041);国家自然科学基金(61603323);新疆大学博士科研启动基金(BS160239)~~
为了进一步提高基于深度神经网络短文本分类性能,提出将集成学习方法应用于5种不同的神经网络文本分类器,即卷积神经网络、双向长短时记忆网络、卷积循环神经网络、循环卷积神经网络、分层注意力机制神经网络,分别对两种集成学习方法(Ba...
关键词:短文本分类 机器学习 深度学习 集成学习 BAGGING STACKING 
检索报告 对象比较 聚类工具 使用帮助 返回顶部