Workflow
训练
icon
Search documents
芯片新贵,集体转向
半导体芯闻· 2025-05-12 10:08
如果您希望可以时常见面,欢迎标星收藏哦~ 在AI芯片这个波澜壮阔的竞技场上,一度被奉为"技术圣杯"的大规模训练,如今正悄然让位于更 低调、但更现实的推理市场。 Nvidia依然在训练芯片市场一骑绝尘,Cerebras则继续孤注一掷地打造超大规模计算平台。但其他 曾在训练芯片上争得面红耳赤的玩家——Graphcore、英特尔Gaudi、SambaNova等——正在悄悄 转向另一个战场:AI推理。 这一趋势,并非偶然。 AI训练作为一个重资本、重算力、重软件生态的产业,Nvidia的CUDA工具链、成熟的GPU生态 与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而Cerebras虽然另辟蹊径,推出了 超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。 在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。"训练芯片的市场不是大多数玩家的 竞技场",AI基础设施创业者坦言,"光是拿到一张大模型训练订单,就意味着你需要烧掉数千万 美元——而且你未必赢。" 规模并行结构适合处理这类不规则数据结构。 在应用领域,IPU在化学材料和医疗领域表现突出,曾被用于冠状病毒研究。2020年,微软的 Sujee ...
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 08:28
LLM 的系统提示就是在对话一开始递给 AI 的"一页说明书",用来告诉它该扮演什么角色、遵守哪 些规则、用什么方式回答用户。 大概来看一下这么长的提示词里面主要都是一些什么内容: 而且整个提示词中充满了临时修改的的痕迹,这些修改往往没有使用 XML 或者 Markdown 格式的列表,就 是一段话,看起来像是针对一些热点事件或者问题修复打的补丁。 **Acknowledgments** I would like to thank my supervisor, for his kind of support. I would like to thank my supervisor, for his kind of support. 如果懒得看内容可以听一下,播客使用 listenhub 制作 前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。 相比之下,OpenAI 在 ChatGPT 中的 o4-mini 的系统提示有 2,218 个单词,只是 Claude 的 13%。 什么是系统提示词 Claude 整个系统提示词这么长维护和更新甚至版本控制应该都需要一个专门的流程,不然 ...
清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理能力
量子位· 2025-05-12 04:11
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 不用引入外部数据 ,通过自我博弈(Self-play)就能让预训练大模型学会推理? 来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为 "绝对零" (Absolute Zero)的训练方式。 这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。 测试中,用"绝对零"训练出的模型,表现已 经超过了用专家标注样本训练的模型 。 并且"绝对零"方法只需在代码环境中训练,但可以让模型在数学推理上也取得显著进步。 这项研究也在Reddit上引发了讨论,开帖转载的网友惊叹:会自我进化的AI已经被解锁了? Proposer负责生成新的推理任务,Solver负责解决这些任务。通过两个角色的交替和协同,模型可以自主地构建学习任务分布,并在求解任 务的过程中不断提升推理能力。 "绝对零"将所有的推理任务统一表示为 (p,i,o) (即程序,输入,输出)的三元组形式。 这里的程序是一段可执行的代码,输入是该程序的输入数据,输出是程序在给定输入下的输出结果。 在出题-做题中自我学习 "绝对零"采用了一种自我博弈的学习范式。在这个 ...
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
Shen Zhen Shang Bao· 2025-05-11 22:32
【深圳商报讯】(记者陈姝)记者日前获悉,腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行 深度优化,使其在多种网络环境下均实现显著性能提升。经测试,优化后的通信框架性能在RoCE网络 环境提升100%,在IB网络环境提升30%,为企业开展AI大模型训练提供更高效的解决方案。相关技术 方案获得了DeepSeek公开致谢,称这是一次"huge speedup"代码贡献。 其次,腾讯还着力解决了GPU通信中的CPU控制瓶颈问题。通过基于IBGDA技术的优化,腾讯使得"控 制面"场景的操作也可以绕过CPU的"中转",进一步降低了延迟和能耗,提升了整体通信效率。 同时,针对GPU直接"对话"时存在的传输顺序混乱难题,腾讯提出了"QP内时序锁"机制,使得多个 GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理 顺先后顺序。 在腾讯的技术优化下,DeepEP不仅在RoCE网络实现性能翻倍,反哺到IB(InfiniBand)网络时更使原 有通信效率再提升30%。 目前该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器构 建的高 ...
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
Soochow Securities· 2025-05-11 14:05
证券研究报告·行业跟踪周报·电子 电子行业跟踪周报 架构级创新,华为 UB Mesh 直击大模型训练 的"通信墙"与成本痛点-国产算力周报 增持(维持) [Table_Tag] [Table_Summary] 投资要点 ◼ 4DFullMesh 支持下的千卡集群及叠加 Clos 拓扑互连的 8 千卡集群。 UB-Mesh 的机架架构以单机柜 64 个 NPU 为核心,通过分层全连接实 现高效扩展。每个机架内,8 个 NPU 板各集成 8 个 NPU,形成 2D FullMesh 互连,确保 NPU 间低延迟与高带宽通信,同时集成 UB IO 控 制器的 NPU 兼具计算与路由功能,支持间接通信路径优化,减少广播 域冲突;CPU 独立部署于专用板卡,通过低基数交换机与 NPU 动态互 连,可实现 CPU/NPU 比例灵活调整及 CPU/NPU/DDR 资源池化,提升 硬件利用率。机架间通过低基数交换机聚合四路 UB x256 接口,以无阻 塞方式管理跨机架连接,并横向扩展 2D FullMesh 至相邻四个机架,形 成 4D 层级互连,每个机架含 64 个 NPU,四机架构成 Pod 后总规模达 1024 个 ...
新财富·董秘特辑 | 叶静:多维赋能 积极传递公司长期价值
新财富· 2025-05-11 08:31
历经二十一载岁月沉淀,新财富金牌董秘评选已成为中国资本市场极具权威性与公信力的标杆评选,不仅见证 了中国资本市场蓬勃发展的壮阔征程,更以专业视角镌刻下时代变革的深刻印记。金牌董秘群体凭借卓越的专 业素养与创新实践能力,持续优化上市公司治理、深化投资者关系管理,已然成为推动中国资本市场向高质量 发展迈进的一股重要力量。 值此新财富董秘评选二十一周年之际,诚邀历届金牌董秘,分享企业战略、发展历程与职业经验,以实战洞见 解构资本风云,共探行业发展逻辑。 董事会秘书作为上市公司治理架构中的"关键齿轮",在资本市场运作中承担着承上启下、内外联动的 战略职能。优秀董秘既是合规运营的"守门人",更是价值创造的"助推器",其履职效能直接关乎上市 公司治理水平与可持续发展质量。 4月29日,第二十一届新财富金牌董秘、第八届新财富最佳IR港股公司获奖榜单揭晓。 依米康董事会秘书叶静女士,凭借其专业的知识、丰富的经验和敏锐的市场洞察力,从数千位上市公 司候选人中脱颖而出,荣获"第二十一届新财富金牌董秘"称号。 以法务智慧赋能公司治理 助力公司资本运作与行业共建 截至2024年末,依米康及下属子公司已揽获152项专利,186项著作权 ...
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 05:09
DeepSeek如何改变中国AI投资?具身智能距离清晰商业化还要多久?这些热门话题吸引了众多资深投资人热烈 讨论。在 "第19届中国投资年会·年度峰会"上, 投中网主编曹玮钰 与 红杉中国合伙人公元 等嘉宾就当下AI与具 身智能等话题举行了一场别开生面的对谈。 公元从商业化的角度分析,今天的创业模式与互联网时代很大的不同在于,明确的商业化路线的重要性已经让 位于技术的颠覆创新。因为一个新模型能力的突破,用户可以瞬间转移。而现在具身领域很有可能处在AI赛道 2018年的阶段,市场还没有看到GPT时刻。但只要创业者和投资人相信AGI的未来,行业就一定能做出来。 以下为现场实录整理: AI还是在快速变化的时候,大家说AI一天,人间一年。现在很难预测未来会是哪几家在线上,后训练和预 训练像两只脚一样,可能是个需要双轮前进的事情,所有的公司都在这两条线上做努力,谁会先迈出下一 只脚,更进一步,是大厂,还是创业公司,我觉得大家都不知道,我们刚刚开始。 Q Q 大家好,这个环节叫 DeepChat ,我们主要想聊一下人工智能和具身的话题。我先来问一个问题,人工智能 和具身这两个赛道是不是足够大,或者说仍有非常大的非共识? ...
芯片新贵,集体转向
半导体行业观察· 2025-05-10 02:53
在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。"训练芯片的市场不是大多数玩家 的竞技场",AI基础设施创业者坦言,"光是拿到一张大模型训练订单,就意味着你需要烧掉数千 万美元——而且你未必赢。" 如果您希望可以时常见面,欢迎标星收藏哦~ 在AI芯片这个波澜壮阔的竞技场上,一度被奉为"技术圣杯"的大规模训练,如今正悄然让位于更 低调、但更现实的推理市场。 Nvidia依然在训练芯片市场一骑绝尘,Cerebras则继续孤注一掷地打造超大规模计算平台。但其 他曾在训练芯片上争得面红耳赤的玩家——Graphcore、英特尔Gaudi、SambaNova等——正在 悄悄转向另一个战场:AI推理。 这一趋势,并非偶然。 AI训练作为一个重资本、重算力、重软件生态的产业,Nvidia的CUDA工具链、成熟的GPU生态 与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而Cerebras虽然另辟蹊径,推出 了超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。 正因如此,那些曾在训练芯片上"正面硬刚"Nvidia的创业公司,开始寻求更容易进入、更能规模 化落地的应用路径。推理芯片,成为最佳选项。 Gr ...
速递|OpenAI首投机构再出手!Khosla1750万美元押注“轻量化AI”Fastino,AI训练平民化
Z Potentials· 2025-05-08 05:33
图片来源: Fastino 科技巨头常吹嘘需要庞大昂贵 GPU 集群的万亿参数 AI 模型,但 Fastino 正采取截然不同的策略 这家位于帕洛阿尔托初创公司称,他们发明了一种新型 AI 模型架构,专为小型化和特定任务设计。 其模型小到仅需总值不足 10 万美元的低端游戏显卡即可完成训练。 该方法正引发关注。 Fastino 透露,已获得由 Khosla Ventures 领投的 1750 万美元种子轮融资,该风 投机构正是 OpenAI 的首个风险投资人。 这使得该初创公司的总融资额接近 2500 万美元。去年 11 月,它曾由微软风投部门 M12 和 Insight Partners 领投,在一轮预种子融资中筹集了 700 万美元。 "我们的模型速度更快、准确性更高,训练成本仅为旗舰模型的一小部分,同时在特定任务上表现优 于它们," Fastino 的CEO兼联合创始人 Ash Lewis 表示。 Fastino 开发了一套小型模型,销售给企业客户。每个模型专注于公司可能需要的特定任务,如敏感 数据脱敏或企业文档摘要。 Fastino 尚未透露早期指标或用户情况,但表示其性能已令早期用户惊叹。例如, L ...
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
量子位· 2025-05-08 04:04
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI UC伯克利团队研发出了一套新的机器人训练系统,可将视频动作迁移到真实机器人。 这个名为 VideoMimic 的新系统,已经让宇树G1机器人成功模仿了100多段人类动作。 VideoMimic的核心原理是从视频当中提取姿态和点云数据,然后在模拟环境中训练并最终迁移到实体机器人。 这项成果引起了网友们的一片哇声,还有人联想到了《加勒比海盗》中的杰克·斯帕罗,表示简直就像装上了一个Jack的API一样。 适应各种地形,还会爬台阶 为了训练机器人策略,研究团队收集了一个包含123个视频片段的数据集。 这些视频由手持设备在日常环境中拍摄,涵盖了不同的人体运动技能和场景。 在VideoMimic的训练下,宇树Go1已经学会了适应各种地形: 不用动作捕捉, 只用一段视频就能教会机器人学会人类动作 ,效果be like: 学会了跨越路肩: 而且学会了爬台阶,过程中还表演出了花式走位: 既然会上,当然也就能下: 并且在下楼梯的过程中,作者发现即使机器人的脚底发生较大滑动,训练得到的策略也能够快速做出反应并恢复平衡,从而避免跌倒。 除了以上各种行进动作之外,也会站起和坐下 ...