腾讯研究院AI速递 20251010
腾讯研究院·2025-10-09 16:01
生成式AI 一、 Gemini 2.5 Computer Use发布,让AI直接操作浏览器 1. 谷歌DeepMind发布Gemini 2.5 Computer Use模型,类似OpenAI的CUA,能让AI直接控制用户浏览器执行点 击、滚动和输入等操作; 2. 该模型在相关基准测试中性能达到SOTA水平,使用效率高于竞品,特别在多步骤、长时间、跨标签页任务上表现 突出; 3. Google为该模型内置多层安全机制,包括逐步安全服务和系统指令约束,开发者已可通过Google AI Studio和 Vertex AI的Gemini API获取该能力。 https://mp.weixin.qq.com/s/7j9hC317kcixXz2qiPWVBQ 二、 硬刚Sora 2,马斯克xAI发布视频生成模型Imagine v0.9 1. 马斯克旗下xAI推出视频生成模型Imagine v0.9并向所有用户免费开放,相比初代版本在视觉质量、动作和音频生 成方面有所提升; 2. 该模型视频生成时间不到20秒,支持语音优先界面,能生成6秒左右视频,用户可通过添加自然对话、动态相机效 果等创建电影级效果; 3. 与Sora ...