Workflow
Gemini 2.5 Computer Use
icon
Search documents
腾讯研究院AI速递 20251010
腾讯研究院· 2025-10-09 16:01
生成式AI 一、 Gemini 2.5 Computer Use发布,让AI直接操作浏览器 1. 谷歌DeepMind发布Gemini 2.5 Computer Use模型,类似OpenAI的CUA,能让AI直接控制用户浏览器执行点 击、滚动和输入等操作; 2. 该模型在相关基准测试中性能达到SOTA水平,使用效率高于竞品,特别在多步骤、长时间、跨标签页任务上表现 突出; 3. Google为该模型内置多层安全机制,包括逐步安全服务和系统指令约束,开发者已可通过Google AI Studio和 Vertex AI的Gemini API获取该能力。 https://mp.weixin.qq.com/s/7j9hC317kcixXz2qiPWVBQ 二、 硬刚Sora 2,马斯克xAI发布视频生成模型Imagine v0.9 1. 马斯克旗下xAI推出视频生成模型Imagine v0.9并向所有用户免费开放,相比初代版本在视觉质量、动作和音频生 成方面有所提升; 2. 该模型视频生成时间不到20秒,支持语音优先界面,能生成6秒左右视频,用户可通过添加自然对话、动态相机效 果等创建电影级效果; 3. 与Sora ...
谷歌发布Gemini 2.5 Computer Use模型,科创100指数ETF(588030)涨超1%,华虹公司领涨
Sou Hu Cai Jing· 2025-10-09 03:05
4、Google计划在印度首度大手笔投资100亿美元,用于建设1吉瓦的数据中心与其附属电力基础设施。 5、10月8日,英伟达CEO黄仁勋证实对马斯克旗下初创公司xAI进行了投资,并称对这一交易感到非常兴奋,唯一的遗憾是没给xAI更多投资,他希望能参 与马斯克的所有业务。 6、10月8日谷歌发布了 Gemini 2.5 Computer Use,该模型是基于 Gemini 2.5 Pro 的视觉理解和推理能力构建,是首个专为界面控制设计的大语言模型。 截至2025年10月9日 10:13,上证科创板100指数强势上涨1.26%,成分股华虹公司上涨16.71%,国盾量子上涨11.71%,东芯股份上涨7.11%,奕瑞科技,金盘 科技等个股跟涨。科创100指数ETF(588030)上涨1.12%,最新价报1.44元。拉长时间看,截至2025年9月30日,科创100指数ETF近2周累计上涨2.30%。 流动性方面,科创100指数ETF盘中换手1.72%,成交1.38亿元。拉长时间看,截至9月30日,科创100指数ETF近1年日均成交4.38亿元,居可比基金第一。 【国庆假期事件回顾】 1、10月1日,OpenAI正式发 ...
谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器
3 6 Ke· 2025-10-08 07:06
谷歌的 Computer Use 模型来了! 今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use。 考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer- Using Agent (CUA) 类似,DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以帮助用户在浏览器中执 行点击、滚动和输入等操作。 先来看两个官方演示。 提示词:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe- spa.web.app/. Then, set up a follow up visit a ...
谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器
机器之心· 2025-10-08 03:18
机器之心报道 编辑:Panda 谷歌的 Computer Use 模型来了! 今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use 。 考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer-Using Agent (CUA) 类似,DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以帮助用户在浏览器中执行点击、滚动和输入 等操作。 先来看两个官方演示。 提示词: From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe- spa.web.app/. Then, set up a ...