Scaling law

Search documents
VLA是特斯拉V13的对手吗?
36氪· 2025-04-08 11:05
VLA本土化破局。 2月底,特斯拉FSD入华了,国内全体智驾企业绷紧了脊背。 3月,特斯拉FSD"翻车"和"丝滑"同时出现,大佬们的笑容虽然回到了脸上,但心里的焦虑就不得而知了。 回顾特斯拉FSD入华后的表现,有一种将《智驾迷惑行为大赏》和《智驾优秀生演示稿》放在一起排排坐的割裂感。一方面在上海陆家嘴,FSD把公交车道 当超车道狂飙;广州塔底下,导航明明显示绿灯,车子却因为把"前方施工"的警示牌看成了广告牌突然来了个急刹。一方面,它在常规驾驶中,展现出了老 司机的水准,能够准确避让非机动车,毫不迟疑地完成掉头、转弯等动作,给到用户熟练丝滑的体验。 FSD在常规驾驶中表现丝滑 造成这样场面的理由也很简单,特斯拉的底层AI技术积累雄厚,可以支撑智能驾驶在常规使用过程中的丝滑体感,但由于搭载了端到端模型(对比传统模块 化的智能驾驶模型,端到端模型虽然在感知、决策、控制等过程不会产生信息的损耗,但本质上仍是依照指令实施相应的操作,不能理解潮汐车道等特殊路 况的行驶规则)缺乏中国数据训练系统,导致FSD并不了解中国复杂的人车博弈场景,看不懂特殊道路的行驶规则,这也演变出了特斯拉的"智驾迷惑行为 大赏"。 而大佬们的集体 ...
智谱发的「干活Agent」,不用邀请码
36氪· 2025-04-01 13:52
以下文章来源于智能涌现 ,作者周鑫雨 智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 CEO张鹏: "我们不属To B赛道,拒被标签化。 " 文 | 周鑫雨 编辑 | 苏建勋 来源| 智能涌现 (ID:AIEmergence) 封面来源 | 视觉中国 交出后DeepSeek R1时代的答卷,对如今的六小虎而言,显得尤为重要。 DeepSeek R1和Manus,已经分别在推理模型和AI Agent领域炸了场。对于后来者而言,跟随是最为保守的路径。比如,百度发布 了推理模型文心X1,腾讯上线了混元深度思考模型T1。 在3月31日的OpenDay上,在国内资本市场拿钱到手软的智谱,开年交出的答卷 则是R1和 Manus的"plus版本"——具有深度思考 能力的Agent产品,"AutoGLM 沉思(以下简称'沉思')",已经免费上线。 | ·· 智濟 AutoGLM in | AutoGLM 安卓 7 | AutoGLM Web 7 | 加入社群 | 立即体验 | | --- | --- | --- | --- | --- | | AutoGLM 沉思 | | | | | | AutoGLM沉思是 ...
从DeepSeek R1的复现看深度思考模型的未来|ML-Summit 2025
AI科技大本营· 2025-03-31 06:55
备受瞩目的 2025 全球机器学习技术大会(ML Summit 2025)将于 4 月 18-19 日在上海虹桥西郊庄园丽笙大酒店召开。本次盛会由 CSDN & Boolan 联合主办,汇聚了超 50 位来自学术界和工业界顶尖专家,共同探讨智能体、联邦学习、多模态大模型等热门 AI 技术实践。 作为全球机器学习技术大会的老朋友,新浪微博首席科学家及 AI 研发部负责人张俊林将带来《从 DeepSeek R1 的复现看深度思考模型的未来》的精 彩分享。 张俊林作为「大模型技术拆解得最通透的实战派」,在 2024 年的机器学习技术大会上,他对 Gemini 多模态架构、OpenAI o1 技术的硬核拆解,让 开发者直呼"终于有人讲透技术本质"。 系统梳理技术脉络: 回顾 DeepSeek R1 开源后的各类复现研究,涵盖 SFT 阶段的轻量适配(如 S1)与 RL 阶段的创新实践。 深度解析训练范式: 重点剖析其核心的两阶段训练模式——如何通过冷启动微调结合多领域数据优化进行 SFT,以及如何运用 GRPO 强化学习 与全场景对齐实现模型"深度思考"能力的跃迁。 探讨关键技术问题: 尝试解答一系列备受关注的核心问 ...
世界怎么就「东升西落」了?聊聊二级市场与 DeepSeek+Manus 的热潮 | 42章经
42章经· 2025-03-30 14:25
「东升西落」的叙事 曲凯: 最近我又来美国了,发现市场真是变化太快,这边突然有人开始提到一个所谓「东升西 落」的叙事。 莫傑麟: 对,二级市场今年 1 月以来一直在演绎这个剧本,但其实 24 年就已经在为这个叙事做 铺垫了。 24 年美国的宏观环境和各项经济数据都比较好。他们一方面非常重视 AI,在所有前沿创新上也一 直绝对领先,另一方面又凭借美元的强势吸引着全球的投资。 但今年 Trump 上台之后,情况发生了变化。 Trump 在关税、财政支出上都做了很多调整,一套大刀阔斧去杠杆的动作下来,大家关注的重点 从 AI 转向了宏观问题,也对未来多了很多不确定性。 又因为过去几年,美国股市一直走高,投资人的预期已经被拉得很满。所以大家现在极度厌恶风 险,股市就会出现剧烈的震荡。 而今年的中国刚好是美国的镜像。 其实国内的股价从 24 年开始就有回升,但并不明显,直到今年 DeepSeek 的发酵才彻底引爆。 归根结底,还是因为大家之前对于中国科技行业和宏观环境的预期都太低了。 曲凯: 对,我觉得「东升西落」本质上是一种价值评判的回归,之前大家确实过于低估国内 AI 了,而 DeepSeek 就是一个典型代表。 ...
大模型“神仙打架”,掀起复现潮、技术大升级后,我们需要关注什么? | 万有引力
AI科技大本营· 2025-03-25 01:45
以下文章来源于CSDN ,作者万有引力 CSDN . 成就一亿技术人 作者 | 万有引力 出品 | CSDN(ID:CSDNnews) 在过去短短的几周里,大模型赛道的信息密度飙升至前所未有的高度。DeepSeek 连续 五天开源 ,直接引发了一场复现热潮;阿里巴巴通义实验室、 腾讯相继推出面向视觉文档的 RAG 系统 ViDoRAG、新一代混元快思考模型 Turbo S ,加速了大模型的演进步伐;马斯克用 20 万张 GPU 训练出的 Grok 3 ,超越了许多业界标杆,再次验证了"大力出奇迹"的定律; Claude 3.7 Sonnet 迎来编码能力大升级,AI 编程的技术平权时代正在加速到来; DeepSeek 论文与 Kimi"撞车",越来越多公司开始布局稀疏注意力与线性注意力机制,这些技术正成为 Transformer 之后的关键探索方向;此外, Manus 模式的"虚拟机"概 念迅速走红,正在重塑大模型的运行方式... 在这场眼花缭乱的技术竞赛背后,真正值得我们关注的是什么?DeepSeek 的五连发 究竟意欲何为?在 545% 的成本利润率之下,其他大模型公司是 否也能找到盈利空间?面对行业变 ...
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-02 22:40
以下文章来源于RimeData 来觅数据 ,作者来觅研究院 RimeData 来觅数据 . 全面的一级市场数据平台 导读: 2025年2月24日起,DeepSeek开始为期5天的代码开源周,开源了FlashMLA、DeepEP、DeepGEMM等代码库。2月28日,OpenAI发布其最 新一代基础模型GPT-4.5(非推理模型),号称是迄今为止数据规模最大、知识最为丰富的聊天模型。可见,AI正以惊人的速度在发展。DeepSeek 的开源策略对行业带来哪些影响?全球AI大模型的进展如何?GPT-4.5模型有何特点?行业投融资情况如何?本文尝试分析和探讨。 01 DeepSeek开源策略影响 DeepSeek,全称为杭州深度求索人工智能基础技术研究有限公司,成立于2023年,是一家由知名私募巨头幻方量化孕育而生的创新型科技公司,专 注于开发先进的大语言模型(LLM)及相关技术。自成立以来,DeepSeek已相继发布了多款产品,包括DeepSeek Coder、DeepSeek LLM、 DeepSeek V2、DeepSeek V3、DeepSeek R1等。 2024年12月26日,DeepSeek正式上线De ...
晚点播客丨MiniMax 闫俊杰聊大模型 2024:一个非共识判断引起的回声
晚点LatePost· 2025-01-22 13:56
"更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。" 文丨程曼祺 * 头图:Dota 2019 国际邀请赛决赛(TI9)中,OG 战队的 Ana 使用 IO(小精灵,图中球形发光体)的经典作战,OG 在 TI9 中夺冠。为什么用这个图?播客里有 答案。 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#99 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 上周四,我们发布图文访谈:《 晚点对话 MiniMax 闫俊杰:千万别套用移动互联网的逻辑来做 AI 》,这是这次访谈的音频版。 闫俊杰的一些 "非共识" 判断,引起不少讨论。 他认为,模型能力和用户规模并不是直接的飞轮关系:"更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好 的模型。" 而今天(1 月 22 日)字节跳动发布 Doubao-1.5-pro 模型的技术报告里则提到:"依托字节在推荐、搜索和广告领域的 AB Test 经 验,研发了基于 ...
她为何被雷军挖角
投资界· 2025-01-21 07:35
以下文章来源于南风窗 ,作者朱秋雨 南风窗 . AI小厂崛起。 作者 | 朱秋雨 来源 | 南风窗 (ID:shangyejingxiang) 2024年末,一个中国AI小厂,凭借过硬的技术,获得了全球铺天盖地的关注。 圣诞节过后,海外社交媒体以及技术论坛Github都在讨论一个最新发布的开源大模型, DeepSeek-V3。它被外国网友冠以名号——"来自东方的神秘力量"。 多个评测报告里,DeepSeek-V3在世界开源模型之中处在第一梯队,超过扎克伯格的 LLaMa 3.1。拿它比GPT-4o以及Claude 3.5两个最顶尖大模型也毫不逊色,甚至, 其在数学推理、代码生成和长文本处理等指标上,表现更强。 这还不是中国AI公司DeepSeek(中文名:深度求索)全部的"拿手好戏"。更让美国硅 谷等同行摸不着头脑的是,DeepSeek公布的53页技术报告显示,其训练顶尖大模型只 用了2048张H100的GPU集群,花费53天,共计耗费557.6万美元。有专业人员指 出,同等水平之下,世界AI大厂至少要用1.6万张以上的GPU,有的甚至需要10万张 GPU并行训练。 OpenAI早期成员安德烈·卡帕西感慨,D ...
AI正在诞生一个万亿级公司
投资界· 2024-12-25 08:24
人工智能"加减乘除"。 报道 I 投资界PEdaily 2 0 24年12月1 0 - 11日,由中共重庆市委金融委员会办公室指导,清科创业、投资界主 办,重庆渝富控股集团联合主办的"第二十四届中国股权投资年度大会"走进西部金融中 心重庆。作为股权投资行业晴雨表,本次大会将以"万象耕新"为主题,回顾行业风云, 重塑格局策略,探索价值发现,持续为中国股权投资行业注入力量。 本场《人工智能+-×÷》圆桌论坛,由光速光合合伙人 孙健 主持,对话嘉宾为: 真格基金 合伙人 刘元 啟赋资本 合伙人 宋昶 广州基金 首席投资官 易沙 合力投资 管理合伙人 张敏 以下为对话实录, 经投资界(ID:peda il y 2 0 1 2)编辑: 孙健 :很荣幸主持这场圆桌讨论,主题是人工智能加减乘除,为什么是加减乘除?我在 想,是不是可能半年前人工智能还处于(X),发展到今天大家面临着各种各样的疑问 和困惑,就演变成了一个加减乘除,不知道该选择哪一个符号。在开场前,还是请大家 先自我介绍。 张敏 :我来自合力投资,主要关注早期投资,2001年进入到天使投资,现在做了2 3年。 易沙 :广州基金是由广州市委、市政府为推进广州产业转 ...
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 14:30
新栏目上线试运行。 文丨 贺乾明 编辑丨黄俊杰 到了 11 月,越来越多的人说,成就 OpenAI 的这条路似乎撞到了墙: 多家媒体报道,Google、OpenAI、Anthropic 等公司,开发下一代模型时,都没能像前些年那样让模型能力大幅提升。 硅谷风投 a16z 创始合伙人、投资了 OpenAI 等多家大模型公司的马克·安德森(Marc Andreessen)说:"我们以相 同的速度增加(GPU),根本没有智能提升。" OpenAI 联合创始人、前首席科学家伊尔亚·苏茨克维 (Ilya Sutskever) 说:"2010 年代是扩大规模的时代,现在我 们再次回到了需要奇迹和新发现的时代。" 这些公司的高管否认了 "撞墙" 的说法,也有证据表明他们仍在想办法突破,毕竟建设更大规模的算力中心的势头并没 有放缓,甚至还在加速。 他们同步在大模型应用上倾注更多的资源。从 OpenAI、Anthropic 到 Google、微软,再到风投机构,都把 Agent——让 大模型理解人类指令,调度数据库和工具完成复杂任务的系统——当作下一个赛点。 11 月,ChatGPT 迎来两周年,却是 OpenAI 官方相对沉 ...