Workflow
阿里通义千问再放大招 多模态大模型迭代 加速改写AGI时间表

阿里通义千问更新,再为多模态大模型赛道添了一把火。 8月19日,通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,专注于语义和外观编辑,支持 双语文本修改、风格迁移及物体旋转,进一步拓展了生成式AI在专业内容创作中的应用。 短短半年内,阿里连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,而阿里之外,智 谱、阶跃星辰等大模型厂商也在密集布局,从视觉理解到全模态交互,多模态大模型在2025年明显迭代 加速。 业内普遍认为,当前大模型的发展已经从单一的语言模型迈向了多模态融合的新阶段,这是通向AGI的 必经之路。 谷歌研究报告显示,预计至2025年,全球多模态AI市场规模将飙升至24亿美元,而到2037年底,这一 数字更是预计将达到惊人的989亿美元。 2025年,阿里开源升级版视觉理解模型Qwen2.5-VL,72B版本在13项权威评测中视觉理解能力全面超越 GPT-4o与Claude3.5;同期还发布了首个端到端全模态大模型Qwen2.5-Omni,支持文本、图像、音频、 视频的实时交互,可部署于手机等终端智能硬件。 8月,阿里又开源全新 ...