检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机科学与探索》2025年第3期I0002-I0002,共1页Journal of Frontiers of Computer Science and Technology
摘 要:近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeekJanus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性?如何降低多模态大模型的训练与推理成本,并保障其安全性与伦理合规性?如何在不同垂直领域适配优化多模态大模型,以解决领域特定应用问题?这些问题亟需学术界与工业界共同探索创新解决方案。为深入探讨多模态大模型的前沿理论与技术突破,推动其在各领域的创新应用,《计算机科学与探索》特设“多模态大模型:理论、技术与应用”专题。本专题旨在汇聚多模态学习、大模型架构设计、跨模态知识融合等领域的优秀研究成果,为构建高效、可靠、可扩展的多模态大模型提供理论支持与实践指导,助力人工智能向更通用、更智能的方向发展。欢迎学术界与工业界同仁踊跃投稿,共同推动多模态大模型的理论、技术创新与产业应用落地!
关 键 词:人工智能 计算机科学 知识融合 可解释性 模型架构 特定应用 多模态 语言模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171