邵曦

作品数:37被引量:91H指数:5
导出分析报告
供职机构:南京邮电大学通信与信息工程学院更多>>
发文主题:音频多模态演奏语音多模态融合更多>>
发文领域:自动化与计算机技术电子电信文化科学艺术更多>>
发文期刊:《计算机工程与应用》《电子学报》《计算机应用与软件》《电脑知识与技术》更多>>
所获基金:国家自然科学基金教育部留学回国人员科研启动基金江苏省高校自然科学研究项目国家重点实验室开放基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于对比学习和迁移学习的自动音频字幕系统
《智能计算机与应用》2025年第3期1-6,共6页潘超凡 童骁 彭焘 李圣辰 朱晨阳 邵曦 
国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,62001038);姑苏领军人才青年人才创新项目(ZXL2022472)。
自动音频字幕是一项跨模态翻译任务,旨在使用自然语言来描述一段音频剪辑的内容。该任务近年来受到国内外广泛关注。现有的自动音频字幕系统通常基于编码器-解码器结构,而数据稀缺问题始终是自动音频字幕系统训练面临的一大难题。针对...
关键词:自动音频字幕 跨模态翻译 对比学习 迁移学习 音频剪辑 
基于多尺度条带卷积注意的声音事件检测
《智能计算机与应用》2025年第2期168-174,共7页王恬 朱晨阳 李圣辰 邵曦 
国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,61872199,61872424,62001038);姑苏领军人才青年人才创新项目(ZXL2022472)。
现有多尺度特征融合方法能够解决声音事件检测中声音事件时间尺度不一的问题,但对短时声音事件检测能力有时反而下降。本文在主流的卷积循环神经网络(CRNN)中增加了多尺度条带卷积注意模块,该模块通过多分支结构有效地捕捉了短时声音事...
关键词:声音事件检测 多尺度条带卷积注意 十字交叉注意 卷积循环神经网络 
基于SE注意力机制与互信息量的解纠缠跨语种语音转换
《信号处理》2025年第1期183-192,共10页李燕萍 谭誌诚 胡澄阳 杨露露 邵曦 
国家科技创新2030——“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,62001038);南京邮电大学校级自然科学基金(NY223115)。
在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立...
关键词:跨语种语音转换 SE注意力机制 互信息量 全局上下文信息 
基于多特征表示的无监督机器异常声音检测
《复旦学报(自然科学版)》2024年第6期703-710,共8页彭焘 肖遥 冯时 朱晨阳 李圣辰 邵曦 
国家科技创新2030——“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,62001038);姑苏领军人才青年人才创新项目(ZXL2022472)。
在工业生产中,利用声音来检测机器故障信息是一种非常有效和实用的手段。然而实际应用中异常声音很少,只能提供正常的声音数据。所以需要提取能表示机器关键物理特性的特征。本文提出了一种基于多特征表示的无监督异常声音检测方法。先...
关键词:无监督 特征融合 循环谱相干 深度学习 异常声音检测 
高精度复调乐音识别方法被引量:1
《计算机应用》2023年第S02期244-249,共6页王一权 任之初 邵曦 黄丽亚 
江苏省高等学校大学生创新创业训练计划项目(CXXZD2022151)。
为解决复调乐音频识别分辨率偏低的问题,提出一种基于时频谱的复调乐音识别方法,提取复调乐音主旋律和伴奏,算法音高分辨率远超传统方法的半音阶识别。首先,用短时傅里叶变换(STFT)获得音乐信号时频谱;其次,提出一种自适应边缘失真处理...
关键词:复调音乐 时频分析 乐音识别 短时傅里叶变换 模拟退火算法 
基于自注意力机制的多模态场景分类被引量:4
《复旦学报(自然科学版)》2023年第1期46-52,共7页常月 侯元波 谭奕舟 李圣辰 邵曦 
国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,61872199,61872424)。
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResN...
关键词:视听场景分类 自注意力机制 多模态融合 辅助学习 
互编码器辅助视频的多模态场景分类
《南京邮电大学学报(自然科学版)》2023年第1期104-110,共7页黄天阳 侯元波 李圣辰 邵曦 
国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,61872199,61872424)资助项目。
为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网...
关键词:视听场景分类 自注意力机制 多模态学习 编码器 变分自编码器 
新时代中外合作办学机构本科专业评估中发现的问题与对策研究--以江苏省为例
《教书育人(高教论坛)》2022年第11期10-14,共5页王全全 李峻峰 邵曦 
江苏高校哲学社会科学研究项目(2021SJA2437);江苏省高教质量保障与评价研究课题(2020-Y12);南京邮电大学教改研究项目(JG00220JX08);南京邮电大学通达学院教改研究重点项目(JG31219005)。
在在当前深化思政教育、深度产教融合、改革教育评价新时代背景下,中外合作办学面临新机遇和新挑战。江苏省在对中外合作办学机构开展各类本科专业评估的实践中,发现了立德树人与思政教育、师资队伍与职称评聘、产教融合与服务地方等方...
关键词:专业评估 中外合作办学 思政教育 产教融合 学衔 
基于频谱感知音频去噪的无监督机器异常声音检测
《复旦学报(自然科学版)》2022年第5期513-519,共7页仇睿 张晨旭 姚瑶 李圣辰 邵曦 
国家自然科学基金(61936005,61872199,61872424);国家科技创新2030——“新一代人工智能”重大项目(2020AAA0106200)。
在工业自动化生产中,通过声音监测来判断机器运行状态是否正常是一种有效的方法。针对机器运行状态正常变化引起的误判和现实生产环境中存在大量的背景噪声干扰监测的问题,提出了一种基于频谱感知音频去噪的无监督机器异常声音检测方法...
关键词:无监督 音频去噪 异常检测 深度学习 
基于迁移学习与强化学习的自动音频标注系统被引量:4
《复旦学报(自然科学版)》2022年第5期520-526,共7页陈耕耘 李圣辰 邵曦 梅昕浩 刘徐博 黄秋实 王文武 
国家自然科学基金(61936005,61872199,61872424)。
自动音频标注是让计算机为一段音频自动生成标注语句来对该片段进行描述的任务。针对当前音频标注模型不够有效,且模型训练目标与评价指标得分之间不一致的问题,本文提出了一种基于CNNTransformer的编码器解码器结构,并采用强化学习进...
关键词:自动音频标注 强化学习 迁移学习 深度学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部