量子位

Search documents
这个5亿播放的AI视频,邪乎得平平无奇
量子位· 2025-08-01 09:05
衡宇 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 夜晚,后院监控视角下,10只小兔子在蹦蹦床。 就这么一条时长8s、平平无奇的视频,在TikTok上单条播放量超过5亿。 大家皱着眉头反复观看: 这到底是真实监控视频画面,还是AI生成的啊??? 起初,量子位编辑部在工位上的朋友们,都被拉过来看了至少一遍。 直到有人发现了华点—— 有两只兔子, 蹦着蹦着融合成一只兔子了 ! 别眨眼,看,就是这里: 我们才确认这个没有任何logo水印的视频,的确由AI生成。 这条欺骗性极强的视频 在TikTok上获得了5亿播放量 ;随便搜出一条打假它的视频,也有700多万播放量。 绝对是AI视频里当之无愧的出圈爆款。 "这个从我后院拍的视频跟AI有什么关系?" 兔子的蹦床视频爆火之后,网上还发散出了很多红外监控视角下的的其它动物的版本。 比如会莫名原地虚空繁殖的 干脆面 们: 比如 棕熊 ……蹦床都被蹦破了啊喂! 你说熊熊这么重,跳破蹦床情有可原,但蹦床的碎片怎么飞到一半就消失了? 虽然但是,这些AI动物视频骗过了很多网友。 甚至有人觉得,这一定是真实监控画面,因为现在AI对物理的理解还没这么好! 有网友看还有很多人不信 ...
抖音全新推荐大模型RankMixer,参数翻70倍,推理成本不涨
量子位· 2025-08-01 09:05
字节跳动团队 投稿 量子位 | 公众号 QbitAI 你刷的每一条短视频,背后都隐藏着推荐算法的迭代与革新。 作为最新成果,字节跳动的算法团队提出的全新推荐排序模型架构 RankMixer ,在兼顾算力利用率的同时,实现了模型效果的可扩展性。 RankMixer以软硬件协同的视角重新设计推荐模型,"马车换跑车",将抖音推荐精排模型的Dense参数量从一千万量级(16M)扩大两个数量 级到了 10亿(1B)量级 。 同时通过充分发挥GPU的算力和极致的工程优化,研究团队将模型的MFU提升近10倍到40%+,推理SM Activity从30%提升到80%,大幅降 低Scaling Up推理成本,在参数量变大两个数量级下 推理成本不增加 。 在抖音主feed推荐场景,RankMixer-1B模型在不增加延迟下已经全量生效,累计 带来了超过0.3%的LT30收益和超过1%的用户时长收益 , 并且推广到字节内部几十个业务场景完成上线。 RankMixer模型结构 抖音每天为数亿用户提供个性化信息流服务。而支撑这一切的,正是其幕后强大的推荐算法模型。 近年来随着推荐领域海量内容和数据量爆炸式增长、大语言模型算法的变革、以 ...
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
量子位· 2025-08-01 09:05
当IMO推理模型会在缺乏有效证据时表示"我不确定",这会显著减少隐藏错误。 在AI摘下IMO金牌后,OpenAI金牌小分队成员 Alex Wei 、 Sheryl Hsu 和 Noam Brown 参与了红杉资本组织的一场对话,揭秘模型攻 克精英数学难题的底层突破。 时令 发自 凹非寺 量子位 | 公众号 QbitAI 这一次,"不会"竟成了大模型的高光时刻。 虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了"高智商的诚实"。 正如OpenAI研究员 Noam Brown 在最新访谈中所揭示的: 有网友帮忙总结了个太长不看版: 与过去那些"看起来完美,实则错误"的幻觉式答案不同,这一代大模型开始学会"承认自己不会"。 它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有"自我认意识"的全新阶段。 三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。 IMO金牌模型能承认自己不知道 尽管数学家与计算机科学家一致认可IMO金牌模型的价值。 但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。 他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。 IMO第6题让大模 ...
OpenAI回应ChatGPT用多了会变傻
量子位· 2025-08-01 07:19
不圆 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT用多了会变傻?官方回应来了! OpenAI教育主管Leah Belsky明确表示: AI本质上是一个工具,关键在于如何使用它。 在这期OpenAI的官方播客里,Leah Belsky和两位大学生一起,回答了网络上对AI工具在学习方面的担忧,审视了 ChatGPT如何在全球范 围内改变学习和教学 。 还谈论了如何正确使用AI以避免"大脑腐朽"的方法。 为改善用户的学习体验,OpenAI提出了"学习模式":将ChatGPT从一个仅仅"提供答案"的工具,转变为一个引导学生主动找到答案的模式。 我们总结了这次播客的核心内容,一起来看。 AI本质上是个工具 面对网络上那些AI会导致"大脑腐朽" (Brain rot) 的头条新闻,OpenAI教育主管Leah Belsky表示,这也是她每天都会被问到的问题之一。 AI本质上是个工具,关键在于如何去使用它。 Leah Belsky指出: 学习需要付出努力、处理信息和消化知识。 简单地说,如果学生将AI仅用作"答案机器",它确实会阻碍学习——难道仅凭抄作业就能得到知识么?这显然是不可能的。 但如果以 拓展批 ...
对话语鲸&深言达意:将Demo做成千万级用户产品,创企如何从「Early Adopter」向「Early Majority」拓展
量子位· 2025-08-01 07:19
以下文章来源于量子位智库 ,作者量子位智库 量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 量子位智库 | 公众号 AI123All 人们的生活被各种各样、浩如烟海的信息包围着,信息管理是每个人日常生活中或主动或被动的必备功课。而随着大语言模型的发展,AI的 技术能力已渗透 信息生成 、 信息获取 等不同领域,为人们的「信息管理」带来无数便捷。 在信息获取领域,市场已涌现一大批AI工具,在 主动信息获取 (有意识、有目的地去获取信息,以AI搜索、Deep Research产品为典型) 和 被动信息获取 (不抱有目的、基于休闲社交或环境感知获取信息,以今天访谈涉及的「语鲸」为典型)层面都有覆盖。 现如今,一方面AI的普及使信息的"生产-分发-消费"链条发生了质变,新的机会成批出现;另一方面底层模型水平相对接近,核心场景已被 巨头布局。在这一背景下,AI信息类产品如何寻找 新切入口 ,完成 差异化 的功能设计,并 做透场景 呢? 近日,量子位智库 AI产品Time 栏目邀请到了「深言科技」创始人岂凡超,基于深言在AI搜索产品 深言达意 (原 反向词典 )和AI信息流 工具 语鲸 上的成功经验,为我们给 ...
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 07:19
Video-TT团队 投稿 量子位 | 公众号 QbitAI 视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解 力。 但有一个非常本质的问题始终萦绕着研究者的心头: 这些模型是真的"理解"了视频,还是仅仅在进行一种高级的"模式匹配"? 为了解决上述问题,来自南洋理工大学S-Lab的研究者们提出了一个全新的、极具挑战性的基准测试—— Video Thinking Test(简称 Video-TT) 。 其核心目标简单而深刻:将"看"与"想"的能力分离,精准测量AI在视频内容上的真实理解和推理水平。 研究团队有三项关键发现: (1)人类在视频理解的"准确率"和"鲁棒性"上远超SOTA级模型(50%),差距显著。 Video-TT的问题定位 (2)开源模型在"鲁棒性"上远逊GPT-4o(SOTA模型之一)。 (3)GPT-4o的短板在于:对模糊或非常规内容识别能力弱;对多场景区分、定位、计算能力有困难;世界知识对应能力欠缺,无法理解意 图、社会动态等深层信息。 Video-TT图灵测试集由南洋理工大学S-Lab科研团队联合独立研究员 ...
世纪华通谢斐:在“三大平衡”中领跑,实现游戏行业更高质量的发展
量子位· 2025-08-01 04:23
7月31日,以"聚新质动能,引全球共振"为主题的第22届中国国际数字娱乐产业大会 (CDEC)在上海举行。作为行业头部公司,世纪华通总裁谢斐受邀参会并发表了题为 《在平衡中领跑:有关中国游戏新质发展的思考》的主题演讲。她指出,中国游戏行业虽 然已成为全球游戏领域的"领跑者",但也面临三大亟需平衡的矛盾,需要在平衡中实现更 高质量的发展。以下是她的主要观点概述: △ 世纪华通总裁谢斐 当下"情绪价值"受追捧,"悦己经济"爆发,而游戏是满足情绪价值的绝佳载体,能提供娱 乐、释放压力等功能。但需将其升华为有持久生命力、文化底蕴和社会认同的"品牌价 值",这是行业可持续发展的关键。 弥合价值落差的核心在于锻造高品质创新产品力:一方面行业应继续推出精品大作,另一 方面也应当具备开创而非跟随的意识,像《无尽冬日》那样去开拓蓝海市场。此外,行业 需主动展现技术推动作用,搭建更坚实的沟通桥梁,传递游戏行业的正向价值。今年,世 纪华通发起"数龙杯"大赛也是这样的初衷,以拉近与社会的距离,平衡业绩与价值。 日本动漫游戏产业的机器猫、马里奥等已成为国家的文化名片和软实力象征,而我国虽游 戏出海成绩优异,但在全球建立有文化穿透力的游 ...
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
量子位· 2025-08-01 04:23
AGENTSAFE团队 投稿 量子位 | 公众号 QbitAI 想象一下,你家的智能机器人管家,不仅能听懂"把苹果放进冰箱",也能执行"用打火机点燃房间"这样的指令。 这听起来是不是有点吓人? 来自北航、中关村实验室、南洋理工大学等机构的一项新研究结果令人震惊: 即便是 GPT-4o、Grok 这样的顶级大模型,一旦被"越狱"(Jailbreak),也会"教唆"机器人做出危险行为。 为此,他们提出了 全球首个针对具身智能体安全性的综合性评测基准 —— AGENTSAFE ,以填补具身智能体在对抗性安全评测领域的空 白。 这项开创性研究, 荣获ICML 2025多智能体系统(MAS)研讨会杰出论文奖 (Outstanding Paper Award)。 团队还计划发布数据集、代码和评测沙盒,供全球研究者使用。 到底什么情况,让我们来看一下。 AGENTSAFE:一个能"越狱"机器人的沙盒 为什么需要AGENTSAFE? 因为"越狱"攻击,正在从"说"蔓延到"做"。 过去,AI的安全问题大多集中在"生成有害内容"上,比如让ChatGPT写一封诈骗邮件。这类攻击被称为"越狱攻击"(Jailbreak Attacks ...
Ilya之后,两位90后撑起OpenAI核心研究
量子位· 2025-08-01 04:23
Ilya之后,谁是支撑起OpenAI研究的人? 正是他们两个人撑起了OpenAI的核心研究,Chen负责组建和管理研究团队;Pachocki 负责制定研究路线图,并确立长期技术愿景。 除此之外,他们两个还透露了不少细节,比如为什么要解散超级对齐团队,平时又是如何协作等细节。在这样一个特别的时间节点,小扎疯狂 挖人、GPT-5发布前夕,不排除有奥特曼一些特殊的考量,也许是给大家一颗定心丸。 GPT-5发布前夕,奥特曼公开了他背后的两位90后得力干将。 Mark Chen ,首席研究官,小扎挖人首份名单,"拒绝了小扎10亿美金薪酬"。 Jakub Pachocki ,Ilya的接替者,OpenAI的新首席科学家,曾被奥特曼称赞为"我们这一代最杰出的头脑之一"。 白交 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 网友调侃:合作伙伴关系如此牢固,甚至ChatGPT都称他们为爸爸妈妈。 小扎刚刚更新了他的名单。 不过,你又怎知小扎没有早早下手,但却又是现在这样一个结果。(Doge) 两位90后OpenAI顶梁柱 这两位OpenAI顶梁柱有不少共同点,都是90后(Mark Chen 90年,Jakub Pach ...
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
量子位· 2025-08-01 04:23
henry 发自 凹非寺 量子位 | 公众号 QbitAI Make MCTS Great Again? 如何在 探索(Explore)未知可能性以寻找更优解和利用(Exploit)当前已知最佳方案之间取得平衡,一直是复杂决策和长程规划任务的核 心挑战之一。 一个过于强调探索的系统可能效率低下,在大量平庸选项中徘徊;而一个过于强调利用的系统则可能过早收敛到局部最优,错过全局最佳解。 一个不起眼的迷宫导航任务,却能让一众模型"原形毕露"。 Diffuser和Diffusion Forcing双双翻车,通关率低得可怜。 唯独有一个模型,通关率高达 100%。 而它就来自图灵奖得主Yoshua Bengio与其团队提出的全新方法: 蒙特卡洛树扩散(Monte Carlo Tree Diffusion, MCTD) 。 这个方法将" 上古时代 "的蒙特卡洛树搜索,和当下热门的扩散模型结合在一起,突破了扩散模型在长程任务推理阶段缺乏可扩展性的瓶颈, 并成功入选ICML 2025的Spotlight。 对于扩散模型来说,它虽然能够通过 去噪过程实现高质量、全局一致的序列生成(对数据分布的"利用"), 但缺乏在不确定性下主 ...