量子位

Search documents
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
量子位· 2025-05-08 04:04
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI UC伯克利团队研发出了一套新的机器人训练系统,可将视频动作迁移到真实机器人。 这个名为 VideoMimic 的新系统,已经让宇树G1机器人成功模仿了100多段人类动作。 VideoMimic的核心原理是从视频当中提取姿态和点云数据,然后在模拟环境中训练并最终迁移到实体机器人。 这项成果引起了网友们的一片哇声,还有人联想到了《加勒比海盗》中的杰克·斯帕罗,表示简直就像装上了一个Jack的API一样。 适应各种地形,还会爬台阶 为了训练机器人策略,研究团队收集了一个包含123个视频片段的数据集。 这些视频由手持设备在日常环境中拍摄,涵盖了不同的人体运动技能和场景。 在VideoMimic的训练下,宇树Go1已经学会了适应各种地形: 不用动作捕捉, 只用一段视频就能教会机器人学会人类动作 ,效果be like: 学会了跨越路肩: 而且学会了爬台阶,过程中还表演出了花式走位: 既然会上,当然也就能下: 并且在下楼梯的过程中,作者发现即使机器人的脚底发生较大滑动,训练得到的策略也能够快速做出反应并恢复平衡,从而避免跌倒。 除了以上各种行进动作之外,也会站起和坐下 ...
Bye,英伟达!华为NPU,跑出了准万亿参数大模型
量子位· 2025-05-08 04:04
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,跑准 万亿参数 的大模型,可以彻底跟英伟达Say Goodbye了。 例如负载均衡难、通信开销大、训练效率低等等。 而华为盘古团队(包含诺亚方舟实验室、华为云等)基于 昇腾国产算力平台 ,一举攻破了上述所有的挑战—— 6000+块昇腾NPU集群上完成了 7180亿(718B)参数MoE模型 的长期稳定训练,并通过多项突破性系统优化技术实现了显著性能提升。 这些创新大幅提高了训练效率,支撑了行业顶尖水平模型的开发! 不得不说,"国产"二字在大模型硬件上的含金量还在持续上升。 纯国产NPU,丝滑跑通准万亿参数大模型 在拆解华为一系列"黑科技"之前,我们先需要更深入地了解一下训练超大参数MoE模型背后的困难。 完成此举的,正是 华为! 技术报告:arxiv.org/abs/2505.04519 要知道,在此之前,训练万亿参数大模型这事,是有诸多"拦路虎"在身上的。 总体来看,在这条路上有"四大金刚"在严阵把守。 首先就是 架构参数优化难题 ,需在众多参数组合中探索最优配置,设计适配昇腾NPU的大规模MoE架构,实现计算资源的高效利用。 其次是 动态负载均衡 ...
OpenAI神秘项目曝光:cderGPT,用AI加速药物评估
量子位· 2025-05-08 04:04
金磊 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI又一个神秘项目曝光了—— 名字叫做 cderGPT ,专门用来给 药物评估 这事提一提速度。 据Wired发布的消息来看,OpenAI的高层为了这个项目,已经与美国食品药品监督管理局 (FDA)和马斯克的效率部门进行了多次讨论。 至于为什么要做这么个事,FDA局长 Marty Makary 在X上发表了他的看法: FDA现在不得不直面一些前所未有的重大问题: 为什么一款新药上市要耗费十年以上的时间? 为什么我们还没用AI等技术实现现代化? 并且他还表示,"我们刚刚完成了首个AI辅助的科学产品评审,而这仅仅是个开始"。 Walsh还专门会见了从耶鲁大学休学的本科生Peter Bowman-Davis,他目前正担任卫生与 公众服务部的临时人工智能负责人,二人讨论了FDA在人工智能方面的雄心和计划。 据Politico最先报道,Bowman-Davis是风险投资公司Andreessen Horowitz的"美国活力"团 队成员,现在被任命到这个政府职位。 周三通过邮件联系到的Robert Califf(他在2016至2017年期间以及2022年至今年 ...
开源即屠榜!UniME多模态框架登顶MMEB全球训练榜,刷新多项SOTA纪录
量子位· 2025-05-08 01:03
UniME团队 投稿 量子位 | 公众号 QbitAI 告别CLIP痛点,更懂语义关联的跨模态理解新SOTA来了! 格灵深瞳、阿里ModelScope团队,以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniME,一经推出就刷新MMEB训练榜纪 录。 △ 图片于2025年5月6日08:00 UTC+8截取 UniME作为一个创新性的两阶段框架,所展现的卓越的组合理解力,帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力,并在多 个任务中达到了新的SOTA。 由于LLM采用自回归解码器架构,因果掩码机制会从本质上限制了它们的判别能力。 为了解决这一限制,团队引入了如图所示的文本判别知识蒸馏。 目前,该项目已开源,可点击文末链接一键获取~ 以下是UniME的更多相关细节。 UniME训练框架拆解 第一阶段:文本判别知识蒸馏 训练 受E5V等之前研究的启发,研究团队第一阶段选择使用纯文本数据来增强了MLLM中LLM语言组件的嵌入能力。 从最先进的基于LLM的嵌入模型NV-Embed V2 (该模型在对比训练中移除了因果注意力掩码并使用多个多样化的数据集进行训练) 中转移 知识。 具体来说,团队首先将 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-07 09:33
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 获得专业指导 : ...
大模型AI应用,正在企业级赛道迅猛爆发
量子位· 2025-05-07 09:33
明敏 杰西卡 发自 凹非寺 量子位 | 公众号 QbitAI 大模型AI应用在消费级市场的爆发,已引发各界广泛关注。 不论是ChatGPT带动的第一波浪潮,还是DeepSeek之后更多中国大模型AI应用的涌现,从AI智能助手到AI陪伴应用,再到AI在各个领域的 产品,应用层在全面爆发。 但实际上,还有另一个易于忽略却刚需明确、广受看好的赛道,爆发得更迅猛—— 企业级大模型AI应用市场 。 这一趋势已有诸多现实印证。 如AI、云计算、企服领域龙头玩家纷纷推出AI应用开发平台,满足企业拥抱生成式AI需求;IDC预测,中国生成式AI软件市场规模将达到 35.4亿美元 。国家层面也进一步强调,要突出应用导向、推动人工智能产业健康有序发展。"我国数据资源丰富,产业体系完备,应用场景广 阔,市场空间巨大。" 近期,专注于企业级大模型AI应用落地的专业服务商 滴普科技 正式 启动赴港IPO进程,更是直接体现行业热度。由此也揭示出企业市场新的 竞争规律 : 在企业市场,竞争焦点正在从"模型能力"转向"落地能力"。谁能驱动 "Data+AI" 双引擎,谁就能更快抢占潮头。 正在高速爆发的企业级大模型AI应用赛道 过去一年时间, ...
英伟达50系甜品卡发售日期定了!国内定价2499元
量子位· 2025-05-07 09:33
一水 发自 凹非寺 量子位 | 公众号 QbitAI 官宣!英伟达RTX 5060显卡发售时间定了。 根据英伟达中国官网最新消息,RTX 5060桌面显卡将于北京时间5月20日00:00 (太平洋时间5月19日9:00) 正式开卖, 国内售价为2499 元人民币 。 此外,搭载该GPU的笔记本也将在5月上市,起步价为1099美元 (官方建议售价7999元起) 。 从官方公布的参数来看,定位中端的RTX 5060主要有两大看点: 并且英伟达自己喊出的主要卖点是: 5060让用户能够以100 FPS以上的帧率玩游戏 。 在支持DLSS 4多帧生成技术的游戏中,其性能是上一代GeForce RTX 4060的两倍; 价格方面,对比英伟达RTX 50系显卡,5060目前是价格最低的一代。 先来详细看下参数介绍。 和其他RTX 50系列产品一样,5060也采用了NVIDIA Blackwell RTX架构,其基本配置如下: | | RTX | RTX | RTX | RTX | RTX 5050 | RTX | | --- | --- | --- | --- | --- | --- | --- | | | 5060 T ...
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 09:33
FormalMATH团队 投稿 量子位 | 公众号 QbitAI 最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出 FormalMATH形式化数学推理基准测试 ,含 5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域。 形式化数学推理是人工智能领域公认的核心难题之一。 尽管大语言模型(LLM)在自然语言处理和代码生成等领域取得显著进展,但面对需要严格逻辑推导的数学定理证明任务时,其能力仍面临严 峻挑战。 FormalMATH:「超大规模」的形式化数学推理基准 规模突破:22.8倍于现有基准 FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖代数、数论、微积分、离散数学等12个子领域,问题难度从国际数学奥林 匹克(IMO)竞赛级延伸至本科课程,规模是经典基准MiniF2F的22.8倍。 构建创新:人类在循环中的自动化流程用于自动形式化和语义一致性检测 为解决传统形式化数据依赖专家手动标注的瓶颈,研究团队提出了一套 「三阶段过滤」 框架: 现有LLM证 ...
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
量子位· 2025-05-07 09:33
数据和模型在Github上开源。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 字节开源图像编辑新方法,比当前SOTA方法 提高9.19%的性能 ,只用了 1/30的训练数据 和 1/13参数规模的模型 。 做到这一切无需额外预训练任务和架构修改,只需要让强大的多模态模型(如GPT-4o)来纠正编辑指令。 这一方法旨在解决现有图像编辑模型中监督信号有噪声的问题,通过构建更有效的编辑指令提升编辑效果。 团队发现了一个被忽视的关键问题: 现有的图像编辑数据集存在大量的噪声监督信号。 为什么AI编辑图像模型常常"理解错误" 当人们让AI"给照片中的男孩加一条粉色领带"时,AI可能会把皮肤颜色、衣服颜色也改变,或者完全重绘整张图片。 为什么会这样? 当前基于指令的图像编辑方法流行起来,但训练这类模型需要大量原始-编辑后图像对和指令,手动收集困难。 现有数据集通常使用各种自动化方法构建,导致指令与图像对之间的不匹配,产生有噪声的监督信号。 简单来说就是:AI在学习时,看到的指令和实际编辑效果对不上号,导致"学废了"。 如此一来,SuperEdit的方法就不是靠扩大参数规模或增加预训练算力,而是 专注于提高监督信 ...
免费!鹅厂最新3D生成模型火爆外网,CG导演都已经用上了
量子位· 2025-05-07 07:11
比如这位CG导演,就利用混元把生成了精致的模型,然后通过3D打印做出了实物。 还有3D艺术家比较了多款工具之后,夸赞混元就是现在(AI生成3D)的王者。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 鹅厂最新的3D生成模型,狠狠地圈了一波粉,甚至有人拿它来创作小游戏动画了。 只要一张人物照片,就能直接把人放到游戏世界中畅游。 当然基本功也非常扎实, 不仅支持文/图生成3D模型,还能把生成的模型变成3D动画 。 而且这波混元3D还火到了国外,被X上的网友们玩出了花。 还有人评价称,3D的生成式AI,就快要被解决了。 混元3D V2.5 到底有多强?量子位也上手体验了一波,下面就一起看看这位"3D建模大师"的精彩表演吧。 实测混元3D生成 文生3D 先看文生3D,只需要描述生成的内容,官方建议是按照物体+特征+风格的方式进行描述。 一辆经典款复古汽车,圆润的车身线条,双圆形前大灯,车身为深蓝色 可以看到,提示词中的关键点在模型当中都有体现,整体上也符合人们对"复古汽车"的印象。 继续提升难度,这次不仅增加细节,还涉及到了AI最不擅长的数数。 一把实木餐椅,采用橡木材质,椅面为弧形设计,椅背由五根垂直木条 ...