多模态大型语言模型

Search documents
多模态大模型崛起:华泰证券预测应用奇点即将到来
Sou Hu Cai Jing· 2025-07-13 23:44
近期,华泰证券发布了一份深度研究报告,聚焦于多模态大模型及其应用的迅猛发展,指出该领域正迅速接近一个关键转折 点。 报告详细分析了多模态大模型的发展动态,强调这是大语言模型(LLM)演进的必然趋势。尽管LLM在文本处理方面表现出 众,但为了拓宽应用场景,研究者正积极将其他模态能力融入,从而催生了多模态大型语言模型(MLLM)。MLLM主要分为 模块化架构与原生架构两类,其中原生架构因能在全模态数据上同步训练,展现出在性能和效率上的显著优势,不过对算力和 技术要求也更为严苛。目前,以OpenAI和Google为代表的行业巨头在这一领域处于领先地位。 从商业化角度来看,全球范围内多模态应用的进展呈现出海外快于国内、一级市场公司快于二级市场公司、多模态产品快于文 本产品的趋势。海外Chatbot类产品,如OpenAI和Anthropic,已经实现了超过10亿美元的年化收入(ARR),相比之下,国内 Chatbot的商业化进程尚显稚嫩。然而,国内年收入超过1亿美元的AI公司大多聚焦于多模态产品,如美图、快手和睿琪软件等。 特别是在视频生成领域,国内企业表现出色。字节的Seedance 1.0、快手的可灵(Kling) ...
打破资源瓶颈!华南理工&北航等推出SEA框架:低资源下实现超强多模态安全对齐
AI前线· 2025-05-24 04:56
作者 | 米艳鑫 本文介绍来自北航彭浩团队的最新科研成果 - SEA 框架(Synthetic Embedding 增强安全对齐),针对多模态大模型(MLLMs)的低资源安全对齐难题,创 新性地通过合成嵌入替代真实多模态数据。团队通过合成嵌入技术,突破多模态安全对齐的资源瓶颈,为大模型安全落地提供轻量化方案。 论文名称: SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings 论文链接: https://arxiv.org/abs/2502.12562 代码链接: https://github.com/ZeroNLP/SEA 随着人工智能技术的发展,多模态大型语言模型(MLLMs)将额外模态编码器与大型语言模型(LLMs)相结合,使其具备理解和推理图像、视频和音 频等多模态数据的能力。尽管 MLLMs 实现了先进的多模态能力,但其安全风险比 LLMs 更为严重。通过向图像或音频等非文本 [1] 输入注入恶意信 息,MLLMs 很容易被诱导遵守用户的有害指令。 为解决上述问题 ...