Workflow
量子位
icon
Search documents
SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%
量子位· 2025-06-10 05:16
FlowDirector团队 投稿 量子位 | 公众号 QbitAI 传统的视频编辑工作流,正在被AI彻底重塑。 开销低:FlowDirector无反演过程,不需要存储任何额外的控制信息(如Attention Map),单卡4090就可实现高质量视频编辑。 支持广泛:除可进行传统的对象替换外,FlowDirector可以任意的添加、删除视频中的内容,以及进行一系列的纹理替换。 背景100%保持:通过对非编辑区域的"动力"进行冻结,使得编辑后的视频在无关区域与原视频完全保持一致。 方法:针对视频编辑中的「反演痛点」 现在的通用视频编辑方法大多基于反演-去噪(inversion-denosiong)范式: AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一 原因—— 反演-编辑范式 。 因此, 西湖大学AGILab 提出了一种全新的无需反演和训练的视频编辑新方法: FlowDirector 。 相较于其他视频编辑方法,FlowDirector有以下方面值得关注: 编辑结果展示: 这种范式带来了许多问题:反演过程中的错误会不断的累计,使得得 ...
全球人工智能创新创业大赛即将启幕!杭州拱墅全力打造AI创新高地
量子位· 2025-06-10 05:16
允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月,由杭州市拱墅区人民政府、中国人工智能学会、中欧人才交流与创新合作中心 联合主办的 "智汇运河·智算未来"全球人工智能创新创业大赛即将重磅启幕 。 大赛聚焦人工智能前沿领域,面向全球征集优质项目,旨在通过"以赛引才、以赛促创"模 式,推动海内外顶尖技术与产业资源汇聚杭州拱墅,助力打造具有国际影响力的人工智能创 新应用示范区,为国家高水平科技自立自强提供"拱墅样本"。 全球联动,共绘AI产业新图景 当前,人工智能技术正重塑全球产业格局。 作为中国数字经济高地,杭州近年来在人工智能领域持续领跑。拱墅区作为DeepSeek的发 源地,依托大运河数智未来城、智慧网谷小镇等产业平台,已集聚超500家人工智能相关企 业,已建立了"科学家+企业家+投资家"的协同创新、成果转化和产业孵化机制,加速推动人 工智能与实体经济深度融合。 在此背景下,为进一步激发创新活力,以"智汇运河・智算未来"为主题的全球人工智能创新 创业大赛应运而生。 大赛立足拱墅、辐射全球, 聚焦智能制造与智慧城市、生命健康、智慧物流、全球化协同创 新四大"AI+"主题赛道 ,打造立体化竞技 ...
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 04:05
RaML团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后, LLM的内部机制却像一个神秘的"黑箱",让人难以捉摸其决策过程。 上海AI Lab的研究团队的近期提出Reasoning as Meta-Learning(RaML),尝试从 梯度下降 和 元学习 (Meta-Learning)的角度,揭示 了LLM如何"思考",并为优化其性能提供了新思路。 RaML的核心洞察:推理即"梯度下降" RaML框架的核心在于一个直观的类比:LLM在解决问题时生成的"推理轨迹"(即一步步推导的过程),就像模型参数在优化过程中的"伪梯度 下降"更新。 这意味着,当LLM进行多步推理时,其内部状态(即模型参数)会像典型的参数优化过程一样,逐步地"调整"和"适应",每一步都朝着更优的 解决方案逼近,直到得出最终的答案 。 研究团队通过理论推导发现,在Transformer模型中,每个推理轨迹的令牌都可以看作对参数的一次 "隐式更新" 。考虑典型的transformer块 的计算过程,当输入中增加一个推理轨迹令牌 ...
1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet,不用GPU也能运行
量子位· 2025-06-10 04:05
并且aider是一个接近现实软件工程任务的榜单,不是靠做题就能取胜。 △ 图中R1为一月份的0120满血版 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 1.93bit量化 之后的 DeepSeek-R1(0528),编程能力依然能超过Claude 4 Sonnet? 最新优化版R1 在编程榜单aider上取得了60%的成绩 ,不仅超过了Claude 4 Sonnet的56.4分,也超过了1月版的满血R1。 体积方面,相比8bit原始版,这个1.93bit版本, 文件大小降低了70%以上 。 看到如此轻量级的版本能有这样的表现,连作者本人都感到震惊。 而R1-0528的满血版在aider上则是取得了71.4分,超过了不开启思考的Claude 4 Opus。 量化版R1,不用GPU也能跑 这个量化版本来自Unsloth工作室,从1.66到5.5bit,Unsloth一共制作了9个量化版本。 | MoE Bits | Type + Link | Disk Size | Details | | --- | --- | --- | --- | | 1.66bit | TQ1_0 7 | 162GB | 1. ...
20年物理疑云消散!「μ子异常」最新实验未发现显著偏差,标准粒子模型屹立不倒
量子位· 2025-06-10 04:05
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 一度轰动物理学界的「 μ子异常 」,凉了。 美国费米实验室公布的最新实验结果显示: 尽管在2021年,研究人员发现μ子的磁性超出理论预测0.1%,令粒子物理标准模型笼上一朵阴云。 μ子的磁矩反映了它在磁场中的行为,可以用一个无量纲参数 g 来描述:g=2+a μ 。 但他们的「最终」测试结果指出, 并未发现新的显著偏差 。 也就是说, 一切仍与标准模型相符,此前被认为可能颠覆粒子物理学的「异常」并不成立 。 所谓 标准模型 ,是解释夸克、电子等微观粒子的物理模型。在希格斯玻色子被发现之后,标准模型预言的所有粒子都已被发现。 理论成功归成功,物理学家们却从未停止对「权威」的挑战——毕竟,在标准模型下,一些普遍存在的开放性问题不能得到很好的解释,比如 暗物质。 在这种背景之下,打从2001年就漂浮起的「μ子异常」疑云,对于物理学界而言无疑充满了诱惑。 但现在,围绕于此的好奇和质疑,可能都要烟消云散了。 μ子g-2异常 我们还是先回到事情的起点:什么是μ子异常? μ子是一种带电轻子,与电子性质相似,但质量约为电子的207倍。 其中,a μ 是μ子磁矩的反常值。 ...
6分钟狂掉750亿市值!苹果发布会发啥了…
量子位· 2025-06-10 02:23
一水 发自 凹非寺 量子位 | 公众号 QbitAI 开场仅6分钟市值就突然缩水750亿美元 (约合人民币5385.8亿元) ! 是什么让一众投资者对苹果发布会集体大失所望? 咳咳,原来"罪魁祸首"又是它: Siri 。 早在今年WWDC大会召开之前,用户和投资者其实对Siri的更新寄予了厚望,然而开场没多久,苹果软件主管Craig Federighi就尴尬宣布相 关更新可能要推迟到 明年 。 几乎就在这一时刻,苹果股价突然下跌逾2.5%,从约206美元跌至201美元以下,相当于市值缩水750亿美元。 事实上,本次苹果发布会最大看点主要有以下三方面: 仅从AI方面来看,苹果的相关动作还是被网友狠狠吐槽"太慢了"~ 而且沃顿商学院Ethan Mollick教授观察到,苹果的行为刚好和其他大型科技公司"背道而驰": 苹果加倍重视传统用户界面,而忽略了AI。 采用全新液态玻璃设计语言,号称"迄今规模最大设计更新"; AI方面,除了开放自家端侧模型,更多的还是引入第三方模型,并推出了一系列面向开发者的工具; 对包括iOS、macOS在内的全系操作系统进行功能更新,开始回归用户体验。 那么,本次WWDC大会究竟对AI有 ...
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了
量子位· 2025-06-10 02:23
BSA团队 投稿 量子位 | 公众号 QbitAI 让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案, 超60% 的案例中模型并未真正理解风险。 换句话说, 主流推理模型的安全性能存在系统性漏洞 。 针对此种现象,淘天集团算法技术-未来实验室团队引入「 表面安全对齐 」 (Superficial Safety Alignment, SSA) 这一术语来描述这种 系统性漏洞。 进一步的,研究人员推出了一个Benchmark来深入研究推理模型中广泛存在的SSA现象。 这个Benchmark名叫 Beyond Safe Answers (BSA) ,是全球第一个针对推理模型思考过程中风险认知准确性的高质量评测集。 它主要包含3个特征: 挑战性的数据集 全面的覆盖范围 详细的风险注释 BSA提供了一个客观公正的评测工具,帮助更好地理解和提升推理模型在安全领域的应用能力。 引入"表面安全对齐"概念 众所周知,推理模型在显著提升复杂问题解决任务性能的同时,也为模型内部决策过程提供了前所未有的透明度。 思考过程中,推理模型会对指令中蕴含的风险进行分析。 因此, 推理模型的思考过程是很好地观测模型 ...
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 02:23
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 大模型目前的主导地位只是暂时的,在未来五年甚至十年内都不会是技术前沿。 这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。 就在刚刚的新加坡国立大学建校120周年 (NUS120) 之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。 其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出: 让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。 在他4月份新发表的论文《欢迎来到体验时代》也再度强调了这点,同时他表示,扩展计算才是正解。 本次NUS120演讲长达一个多小时,可谓是干货满满、信息量超大。 让我们一起来看看完整演讲内容。 LLM主导是暂时的 Sutton首先提及当前人类处于数据时代,像ChatGPT这类大语言模型,都是靠分析人类产生的大量数据 (如文本、图像、视频) 进行训 练。 但始终追逐人类思维方式,至多也只能达到 "人类水平" 。 在数学、科学等领域,人类数据里的知识已经接近极限,AI难以突破现有认知,纯靠模仿已经 ...
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
量子位· 2025-06-09 09:27
一水 发自 凹非寺 量子位 | 公众号 QbitAI 因为眼睛受伤暂时失去立体视觉,李飞飞更加坚定了做世界模型的决心。 值得一提的是,嘉宾们深入浅出的讲解方式也获得了网友一致好评: 在a16z的最新播客节目中,"AI教母"李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历: 尽管凭借多年经验能想象出三维世界,但一只眼睛看东西时,我开始害怕开车。 但作为一名科学家,她也把这次经历当成一次宝贵的"实验"机会。 这次生病让她明白了 立体视觉对空间交互具有决定性作用 ,"就像语言模型处理文本时需要理解上下文,物理世界的交互也必须建立在三维 空间表征基础上"。 整体而言,李飞飞在节目中解释了 为什么空间智能是当今AI系统关键且缺失的部分,以及她的新公司如何应对这一挑战 。 同时,另一位嘉宾Martin Casado ( a16z合伙人、李飞飞公司早期投资者) 也分享了二人在世界模型上达成共识的故事, 并从投资者的角 度分析了世界模型的潜力和价值。 省流版如下: 下面具体来看。 构建能真正理解物理世界的AI模型 李飞飞自述,其实早在大语言模型 (LLM) 兴起之前,她就深刻意识到了构建世界模型 (LWM) 的重要性 ...
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 09:27
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景 中,常常因缺乏直接视觉操作能力而「视而不见」。 Pixel Reasoner 团队 投稿 量子位 | 公众号 QbitAI 来自滑铁卢大学、港科大、中科大的研究团队,首次将推理战场从文本空间拓展到像素空间,提出「像素空间推理」(Pixel-Space Reasoning)范式。 这项突破让VLM能像人类一样「眼脑并用」:通过原生视觉操作直接与视觉信息对话,在像素级精度上解锁视觉理解的新维度。 推理模式重构:从「文本中介」到「视觉原生」 传统VLM如同带着「文本滤镜」看世界:将图像翻译成文本token再推理,导致小字体、隐蔽物体等关键信息在转换中丢失。而 「像素空间推 理」赋予模型「视觉手术刀」般的能力 : 视觉主动操作 :模型可自主触发视觉变焦(放大关键区域)、时空标记(定 ...