Workflow
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位·2025-07-03 06:58

就在刚刚,Gemini模型行为产品负责人 Ani Baddepudi 在谷歌自家的开发者频道开启了爆料模式。 一水 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 一次性揭秘Gemini多模态技术! 他和OpenAI前员工、现谷歌AI Studio产品负责人 (Logan Kilpatrick,右) 探讨了诸多众人好奇已久的问题: 一言以蔽之,整个谈话几乎都围绕着 Gemini多模态 展开,包括其背后设计理念、当前应用以及未来发展方向。 之所以这场谈话值得关注,实在是因为Gemini多模态过于响当当和重要了。 2023年12月,谷歌原生多模态Gemini 1.0模型正式上线,一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。 而最新的Gemini 2.5 Pro(0605) ,不仅在代码、推理等任务上更上一层楼,而且还拿下视觉能力第一,可以说夯实了谷歌在多模态领域的 领先地位。 此时回看Gemini当时的一些设计理念,会发现其前瞻性与创新性不仅为后续的发展奠定了坚实基础,而且对未来仍具有指导意义。 敲黑板,整场谈话干货满满,咱们这就开始~ 为啥Gemini一开始就被设计为多模态? 一个智能体的 ...