Gemini负责人爆料！多模态统一token表示，视觉至关重要

就在刚刚，Gemini模型行为产品负责人 Ani Baddepudi 在谷歌自家的开发者频道开启了爆料模式。一水闻乐发自凹非寺量子位 | 公众号 QbitAI 一次性揭秘Gemini多模态技术！他和OpenAI前员工、现谷歌AI Studio产品负责人（Logan Kilpatrick，右）探讨了诸多众人好奇已久的问题：一言以蔽之，整个谈话几乎都围绕着 Gemini多模态展开，包括其背后设计理念、当前应用以及未来发展方向。之所以这场谈话值得关注，实在是因为Gemini多模态过于响当当和重要了。 2023年12月，谷歌原生多模态Gemini 1.0模型正式上线，一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。而最新的Gemini 2.5 Pro（0605），不仅在代码、推理等任务上更上一层楼，而且还拿下视觉能力第一，可以说夯实了谷歌在多模态领域的领先地位。此时回看Gemini当时的一些设计理念，会发现其前瞻性与创新性不仅为后续的发展奠定了坚实基础，而且对未来仍具有指导意义。敲黑板，整场谈话干货满满，咱们这就开始~ 为啥Gemini一开始就被设计为多模态？一个智能体的 ...