Workflow
量子位
icon
Search documents
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 10:39
谷歌又放新大招了,将图像生成常用的"扩散技术"引入语言模型, 12秒能生成1万tokens 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么概念?不仅比Gemini 2.0 Flash-Lite更快。 甚至需要不得不在演示过程中 放慢 视频的速度,才能看清生成过程。 这是Google DeepMind推出 Gemini Diffusion :不同于以往大多数语言模型"从左到右"预测文本的生成方式,而是 通过 逐步优化噪声来学习生成输出 。 传统的自回归模型是根据已生成的词序列 逐步预测下一个词 ,每次只能生成一个词或一个token,这种顺序过程很 慢,并且会限制输出的质量和一致性。 而扩散模型的特点则是通过 逐步细化噪声学习生成 ,这种特点会大大提高生成速度,并且减少训练的不确定性。 与以往大多数基于自回归的语言模型不同,Gemini Diffusion在 语言模型中引入了"扩散"技术 ,它不是直接预测文 本,而是通过 逐步细化噪声来学习生成输出 。 这种技术能够让模型在生成过程中 快速迭代 ,并在生成过程中进行 错误纠正 。 Gemini Diffusion就是利用了扩散模型这一优势,将文本生 ...
英伟达让机器人「做梦学习」,靠梦境实现真·从0泛化
量子位· 2025-05-21 10:39
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 「仿生人会梦见电子羊吗?」这是科幻界一个闻名遐迩的问题。 现在英伟达给出答案:Yes!而且还 可以从中学习新技能 。 如下面各种丝滑操作,都没有真实世界数据作为训练支撑。 仅凭文本指令,机器人就完成相应任务。 这是NVIDIA GEAR Lab最新推出的 DreamGen 项目。 它所说的"梦境中学习",是巧妙利用AI视频世界模型生成神经轨迹,仅需少量现实视频,就能让机器人学会执行22种新任务。 在真实机器人测试上,复杂任务的成功率更是从21%显著提升至45.5%,并 首次实现真正意义上的从0开始的泛化 。 英伟达掌门人老黄最近也在Computex 2025演讲上将其作为 GR00T-Dreams 的一部分对外正式进行宣布。 接下来就DreamGen构造我们一一拆解。 在梦境中学习 传统机器人虽已展现出执行复杂现实任务的巨大潜力,但严重依赖人工收集的大规模遥操作数据,成本高且耗时长。 纯粹的计算机仿真合成数据,也由于模拟环境与真实物理世界差距大,机器人所学会的技能难以直接应用到现实。 于是研究团队提出要不试试让机器人在梦境中学习? 这个想法也并非空穴来风, ...
AI视频生成告别默剧时代!谷歌Veo 3一步生成高质量音画大片,rap、电影、动画片都拿捏
量子位· 2025-05-21 06:31
不仅可以拿捏各种影视风格—— 请看VCR (花式演绎"We can talk!") 。 一水 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌最强视频生成模型Veo 3鲨疯了! 这一次,从画面到对白,全都由AI原生直接生成。 还能搞定大段rap—— 视频中的Flow只需简单一句话就能搞定,比如"让老人谈论宇宙"。 从画面到口型再到音频,完全以假乱真了。 还在发布会现场,谷歌DeepMind CEO哈萨比斯就激动宣布: 我们终于走出了无声视频生成的时代。现在用户能用自然语言直接描述角色、场景,还能指定对白和语气。 而通过官方demo,我们也看到了Veo 3电影级的音视频能力: 目前Veo 3已在Gemini应用程序中面向Google AI Ultra订阅用户开放,企业用户可以在Vertex AI平台调用。 虽然距离发布会结束才几小时,但一大波网友试玩已新鲜出炉—— 说唱、洗脑神曲、烹饪节目花式整活 一上来,脑洞大开的网友们就开始搞起了抽象…… 提示词:a video with dialogue of two muffins while baking in an over, the first muffin ...
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 06:31
白交 发自 凹非寺 量子位 | 公众号 QbitAI 何恺明等团队新作新鲜出炉,再次大道至简—— 他们引入平均速度,实现「一步生成」新SOTA。 CMU博士生耿正阳一作,何恺明的学生邓明扬、白行健参与。 他们提出的模型是从头开始训练的,没有任何预训练、蒸馏或课程学习,最终实现了3.43的FID值,明显优于之前最先进的一步扩散/流模型。 一步生成框架:引入平均速度 一次生成模型,指的是只需一步计算就产生高质量的结果,而无需多次迭代。 团队提出了一个原则性强且有效的单步生成框架MeanFlow。其核心思想是引入平均速度的概念来表征流场,这与流匹配方法所模拟的瞬时速 度截然不同。 △ 流匹配的速度场,瞬时速度 平均速度被定义为位移与时间间隔的比率,位移由瞬时速度的时间积分给出。 根据这一定义,这说明平均速度和瞬时速度之间定义明确的内在联系,这自然成为指导网络训练的原则基础。 我们的方法被称为MeanFlow模型,它自成一体,无需预先训练、提炼或课程学习。 演示1:通过jvp计算只需要一次后向传递,类似于神经网络中的标准反向传播,开销不到总训练时间的20%。 它在从零开始训练的ImageNet 256×256上通过1 ...
ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手
量子位· 2025-05-21 04:01
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示, ChatGPT将从回答问题转变为为用户做事 。 也就是说,AI Agent不再满足于30s回答问题,而是通过浏览网页、深度思考、推理总结以解决更复杂的问题。 此外,他还提到 当下模型成本已是GPT-4的500倍 。 而对于今年由DeepSeek引发的模型成本讨论,他觉得从训练后的角度来看, 模型的效率突破在于硬件的提升和算法的改进 ,效率提升了, 那么成本也会下降。 未来OpenAI将 不断降低API价格 ,以便更多公司能够参与到AI发展中来。 一起来了解更多内容吧。 推理模型的突破在于穿插使用工具 让DeepResearch不仅能与网络相连,还能与内部知识源相连 Kevin Weil在访谈中表示,OpenAI正在做的事情就是让DeepResearch能够同时连接到网络和内部知识源,比如Google文档、 Sharepoint、Jira等。 AI Agent能够整合所有的这些内容,甚至可以跨服务操作 ...
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
量子位· 2025-05-21 04:01
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 不再依赖语言,仅凭 图像 就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效 率又低、信息也可能会丢失,那难道就没有一个可以跳过 "语言中介" 的方法吗? 目前相关代码已开源,可点击文末链接获取。 以下是有关VPRL的更多细节。 VPRL更准确、更有效 于是来自剑桥、伦敦大学学院和谷歌的研究团队推出了 首次 纯粹依靠图像进行推理的新范式—— 基于强化学习的视觉规划 (VPRL) 。 新框架利用 GRPO 对大型视觉模型进行后训练,在多个代表性视觉导航任务中的性能表现都远超基于文本的推理方法。 准确率高达80%,性能超文本推理至少40%,首次验证了 视觉规划显著优于文本规划 ,为直觉式图像推理任务开辟了新方向。 现有的视觉推理基准都是将视觉信息映射到文本领域进行处理,整个推理过程都由语言模型完成。 纯视觉规划则是让模型 直接利用图像序列 ,没有中间商"赚差价",推理效率直线UP。 由此团队直接引入一个基于强化学习的视觉规划训练框架V ...
企业把AI用起来,真的不是接入个DeepSeek就完事了
量子位· 2025-05-21 04:01
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 一个残酷的事实—— 企业内部跟上AI时代,真的不是选个模型来让大家用就完事了。 如果只是喊口号让大家把AI用起来,结果往往是: 接入了大模型,员工的工作方式还停留在上一个版本;模型能力在进步,但让它帮忙解决工作中遇到的问题,依旧答不到心坎上;信息还是 乱、知识还是散、效率还是低。 为什么会这样? 因为对不少企业来说,推进AI落地可能还处于探索阶段。一方面容易停留在形式上,缺乏深入融入业务流程;另一方面,也容易在使用方式 上人为增加操作负担。 与其刻意推动形式化的应用,或额外叠加员工负担,不如让AI更顺滑地融入现有流程, 成为工作中随手可得、无需刻意切换的默认工具 。 就在今天,飞书上线了一个新功能, 飞书知识问答 。 这一次,飞书只有一个破局之道——AI不再需要大家在工作过程中刻意地切过去使用,而是化身成企业内部随时准备着一起工作的搭子。 把AI嵌进一直在做的工作里 飞书知识问答是什么?一个面向企业的专属AI问答工具。 看完这个视频,你能初步清晰了解飞书想通过它做什么: 具体来说,它能根据企业员工在飞书上有权限访问的所有消息、文档、知识库、文件等信息,直接 ...
搜索SEO被AI重塑,专业内容社区价值凸显 | 量子位智库报告
量子位· 2025-05-21 04:01
量子位智库 发自 凹非寺 量子位 | 公众号 QbitAI 大模型颠覆传统搜索的风,已经吹到了 商业化策略 的层面。 量子位智库最新报告发现: AI智能助手替代搜索的过程中, 传统SEO也正在被重构 。 SEO (Search Engine Optimization) ,即搜索引擎优化,是指通过优化网站和内容,来提高其在搜索引擎中自然排名,从而吸引更多流 量的方法和策略。 可以说,在互联网时代,SEO是搜索商业化环节中最基础、最重要的组成部分之一,也是提升互联网内容质量和体验的重要一环。 而当「有问题问搜索引擎」的模式,在大模型风暴中逐渐转变为「有问题问AI助手」,用户所需要的答案更多被大模型的「判断」所掌握, SEO也到了需要面向AIGC优化的时刻。 量子位智库《AI智能助手的SEO策略变革研究报告》通过实验分析,提出了以下观点: 更多报告详情,下文我们逐一解读。 专业领域更需要专业内容 报告主要采用模拟用户使用场景的方式,来抽样测评AI助手的信息引源,以分析AI搜索模式下不同内容权重的变化和倾向。 80%消费者至少在40%搜索中依赖AI摘要,用户对信息获取的期待从"自主筛选"转向"获得回答",在此过程中, ...
瘦身不降智!大模型训推效率提升30%,京东大模型开发计算研究登Nature旗下期刊
量子位· 2025-05-21 04:01
京东探索研究院 投稿 量子位 | 公众号 QbitAI 京东探索研究院关于大模型的最新研究,登上了Nature旗下期刊! 该项研究 提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方 法 。 它通过模型蒸馏、数据治理、训练优化与云边协同四大创新,这个项目 将大模型推理效率平 均提升30%,训练成本降低70% 。 这个名为《Omniforce:以人为中心的、赋能大模型的、云边协同的自动机器学习系统》的 项目,发表在Nature旗下期刊npj Artificial Intelligence上。 据介绍,这是国内首个系统性解决开放环境下大模型开发效率难题并获国际顶刊认证的研究 成果。 提出四个创新方法,推理平均提效30% 以京东大模型为例,蒸馏后的大模型Livebench提升14分。 大量的实验结果也证明有效性和效率, 推理平均提效30%,训练成本平均降低70% 。 根据企业自身业务,将通用模型转化为专业模型 企业将大模型应用付诸实践,面临着诸多卡点: 一方面进入大模型应用门槛高,另一方面模型训练与推理效率低。 京东大模型开发计算技术,能支持企业的模型开发训练及生产,让庞大、重型的AI模型"瘦 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-20 20:33
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 获得专业指导 :会由主编级编辑出任mentor,提供一对一指导,帮你更快进步获得 成长。 加入活力团队 :与一群志同道合的年轻人一起工作,享受扁平、简单、开放、充满 活力的团队氛围。 获得丰厚回报 :具有竞争力的薪资待遇(8K-20K),五险一金、餐补、项目绩 效、商务绩效、加班补助等福利一应俱全。 AI大模型方向编辑作者 具身智能机器人方向编辑作者 终端硬件方向编辑作者 AI新媒体编辑(微博/小红书方向) 紧跟AI浪潮 :密切关注AI、大模型领域的最新动态和进展,保持对行业趋势的敏锐 洞察。 挖掘优 ...