Workflow
Gemini Diffusion
icon
Search documents
AI展望:NewScaling,NewParadigm,NewTAM
HTSC· 2025-06-10 01:43
证券研究报告 科技 AI 展望:New Scaling,New Paradigm,New TAM 华泰研究 2025 年 6 月 10 日│中国内地 中期策略 全球 AI 展望:New Scaling,New Paradigm,New TAM 展望全球 AI 发展趋势,1)模型端新架构正逐步探索,预训练 Scaling Law 有望呈现新起点;2)算力端训练与推理共同推动算力需求持续上行,有望 开启新 TAM,同时算力硬件设计进入新范式;3)应用端商业模式变革带来 新范式,Agent 在细分领域率先落地带来新 TAM。持续看好 AI 产业投资主 线,看好全球 AI 应用进入业绩收获期。 模型:预训练 Scaling Law 有望开启新起点 回顾近三个季度以来的大模型迭代情况,强化学习(RL)带来的后训练 test-time compute 依然是大模型的主流迭代方向。经典 transformer 架构下 模型参数规模或已达到了瓶颈,人类现有公开数据已接近被使用完。但值得 注意的是科技巨头在预训练阶段仍在继续尝试,以腾讯混元 Turbo S 与 Gemini Diffusion 为代表的大模型开始尝试在架构上进 ...
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 02:11
机器之心PRO · 会员通讯 Week 23 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 挑战 next token prediction,Diffusion LLM 够格吗? 低成本下的高性能模型,是悖论还是可能? 为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪 些潜在优势?兑现 dLLM 的潜力还需解决什么问题? ... 2. AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么? Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业 该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与 技能重塑? ... 本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。 本期通讯总计 29595 字, ...
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
机器之心报道 编辑:Panda 上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中, Gemini Diffusion 绝对算是最让 人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模 型! Google DeepMind 表示,他们正在使用「扩散」技术来探索新的语言模型方向,从而为用户提供更强大的控制力、创造力和文本生成速度。 从演示效果看,Gemini Diffusion 也确实快 ——「生成速度是我们迄今为止最快模型的五倍,同时还具有相当的编程性能。」 那么,扩散模型为什么会这么快呢?这与其工作原理有关。简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细 化噪声的方式来学习生成输出。这意味着它们不仅可以快速迭代,还能在生成过程中进行纠错。这些特性有助于它们更好地应对编辑等任务,包括在数学和代码 环境中。 用户输入「 Explain what artificial intell ...
AGI的不归之途
虎嗅APP· 2025-06-03 13:52
以下文章来源于未尽研究 ,作者未尽研究 未尽研究 . AI,新能源,合成生物,地缘X 本文来自微信公众号: 未尽研究 (ID:Weijin_Research) ,作者:未尽研究,题图来自:AI生成 转眼之间,2025年即将过半。上半年OpenAI o3、Gemini 2.5 pro、Grok 3 mini和Claude 4的推出, 以及智能体MCP、A2A等协议的推出和融合,让前沿大模型、智能体、应用的进展再次提速。 上半年中国确立了在开源领域的优势。通义千问在2024年9月即已经开始超越Llama 3,DeepSeek R1从2025年初即开始赶上o1。Llama 4推出后,并没有改变开始形成的DeepSeek与通义千问之间在 性能上互卷的格局。 互联网女皇米克尔 (Mary Meeker) 发出了第一份AI趋势报告。她从PC、互联网、移动、云计算来 看AI,认为 所有后来的技术,都是之前技术的"复利",AI也不例外 。所以,押注"乐观"往往是最值 得的投资之一。 目前全球仍有26亿人没有接入互联网,米克尔看好更低成本的卫星互联网,加上直接带有AI功能的 网络体验。"想象一下,一个'首次上网体验'不再是输入 ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...
谷歌I/O的AI新叙事:从大模型到一站式服务,AI与XR会师
3 6 Ke· 2025-05-22 00:15
谷歌CEO Sundar Pichai表示,去年同期谷歌AI大模型和API每月处理9.7万亿个Token,现在这一数字增长到了480万亿个,谷歌搜索业务的AI综述功能月活用 户也达到了15亿人。 AI正逐渐融入我们的生活,成为不可或缺的一部分。无论是谷歌推出的全新大模型和AI应用,还是XR平台和手机系统,都无法脱离AI的影响。 5月21日凌晨,科技巨头谷歌召开了I/O 2025开发者大会,除了万众瞩目的AI功能,谷歌还公布了安卓XR平台和安卓16的新规划及部分新特性。 AI:从大模型变成一站式服务平台 作为谷歌I/O大会的绝对主角,AI可谓重头戏,发布的新品也最多。此前已多次曝光的Gemini 2.5系列,于本场大会确认6月上线,其中Gemini 2.5 Pro号称世 界上最智能的AI模型,新版本刷榜LMArena,在ELO基准测试中拿到了1448分。 Gemini 2.5 Pro新增深度思考版本,在USAMO 2025、LiveCodeBench、MMMU等多项测试中,Gemini 2.5 Pro深度思考版本表现均领先Gemini 2.5 Pro。 Gemini 2.5 Flash则属于轻量级模型,相较上一 ...
腾讯研究院AI速递 20250522
腾讯研究院· 2025-05-21 15:01
生成式AI 一、 真碾压Sora!谷歌Veo 3直接「开口说话」 物理 遵循 性 更 好 1. Veo 3实现音画同步生成功能,能根据提示词同时生成视频画面、对白、唇动和音效,实 现完整的视听体验; 2. 基于V2A(Video-to-Audio)技术,模型能将视频像素转化为语义信号,配合文本提示生 成匹配音频; 3. 模型支持长提示词理解和多步骤事件流生成,但目前仅限8秒视频,面向美国Ultra订阅用 户开放,定价249.99美元/月。 https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA 二、 12秒1万token!谷歌文本「扩散模型」Gemini Diffusion 1. Gemini Diffusion采用扩散技术生成文本,速度达2000token/秒,12秒可生成1万 tokens; 2. 区别于传统自回归模型从左到右生成,通过逐步优化噪声学习生成输出,可快速迭代和错 误纠正; 3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美,支持非因果推理,能一次生成整个标 记块。 https://mp.weixin.qq.com/s/paes ...
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 10:39
谷歌又放新大招了,将图像生成常用的"扩散技术"引入语言模型, 12秒能生成1万tokens 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么概念?不仅比Gemini 2.0 Flash-Lite更快。 甚至需要不得不在演示过程中 放慢 视频的速度,才能看清生成过程。 这是Google DeepMind推出 Gemini Diffusion :不同于以往大多数语言模型"从左到右"预测文本的生成方式,而是 通过 逐步优化噪声来学习生成输出 。 传统的自回归模型是根据已生成的词序列 逐步预测下一个词 ,每次只能生成一个词或一个token,这种顺序过程很 慢,并且会限制输出的质量和一致性。 而扩散模型的特点则是通过 逐步细化噪声学习生成 ,这种特点会大大提高生成速度,并且减少训练的不确定性。 与以往大多数基于自回归的语言模型不同,Gemini Diffusion在 语言模型中引入了"扩散"技术 ,它不是直接预测文 本,而是通过 逐步细化噪声来学习生成输出 。 这种技术能够让模型在生成过程中 快速迭代 ,并在生成过程中进行 错误纠正 。 Gemini Diffusion就是利用了扩散模型这一优势,将文本生 ...
谷歌I/O 2025:Gemini 2.5系列更新,Veo 3支持生成有声视频,还有250刀的AI会员
Founder Park· 2025-05-21 03:40
本篇文章转载自「 新智元」 今天凌晨, 谷歌I/O 2025大会正式开启。 在发布会上,谷歌一口气发了多个AI模型、产品及相关服务。此次发布的重点是 Gemini 2.5系列模型的更新,包括: · Gemini 2.5 Pro(新) :再次刷榜LMArena,ELO拿下1448分,所有类别第一,碾压o3,原生文本到音频生成 · Gemini 2.5 Pro(Deep Think) :刷榜数学、编码、多模态榜单, · Gemini 2.5 Flash(新) :排名仅次Gemini 2.5 Pro,ELO得分1424,原生文本到音频生成 左右滑动查看 除了 Gemini 2.5系列模型的更新外,谷歌还推出了Imagen 4、Veo 3 两款多模态模型。其中,Imagen 4生图细节逼真,生 成速度比Imagen 3快10倍;Veo 3首次支持原生音频输出,能生成对白、背景音等,实现音视频融合。 同时,谷歌还推出了全新文本扩散模型Gemini Diffusion、AI搜索AI Mode、全新Flow创意平台等。 于此同时,谷歌推出了订阅服务——Google AI Ultra,订阅费用高达250美元(比ChatGPT ...