Workflow
训练
icon
Search documents
提升大模型通信性能30% DeepSeek致谢腾讯大模型网络提速技术方案贡献
Shen Zhen Shang Bao· 2025-05-11 22:32
【深圳商报讯】(记者陈姝)记者日前获悉,腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行 深度优化,使其在多种网络环境下均实现显著性能提升。经测试,优化后的通信框架性能在RoCE网络 环境提升100%,在IB网络环境提升30%,为企业开展AI大模型训练提供更高效的解决方案。相关技术 方案获得了DeepSeek公开致谢,称这是一次"huge speedup"代码贡献。 其次,腾讯还着力解决了GPU通信中的CPU控制瓶颈问题。通过基于IBGDA技术的优化,腾讯使得"控 制面"场景的操作也可以绕过CPU的"中转",进一步降低了延迟和能耗,提升了整体通信效率。 同时,针对GPU直接"对话"时存在的传输顺序混乱难题,腾讯提出了"QP内时序锁"机制,使得多个 GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理 顺先后顺序。 在腾讯的技术优化下,DeepEP不仅在RoCE网络实现性能翻倍,反哺到IB(InfiniBand)网络时更使原 有通信效率再提升30%。 目前该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器构 建的高 ...
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
Soochow Securities· 2025-05-11 14:05
证券研究报告·行业跟踪周报·电子 电子行业跟踪周报 架构级创新,华为 UB Mesh 直击大模型训练 的"通信墙"与成本痛点-国产算力周报 增持(维持) [Table_Tag] [Table_Summary] 投资要点 ◼ 4DFullMesh 支持下的千卡集群及叠加 Clos 拓扑互连的 8 千卡集群。 UB-Mesh 的机架架构以单机柜 64 个 NPU 为核心,通过分层全连接实 现高效扩展。每个机架内,8 个 NPU 板各集成 8 个 NPU,形成 2D FullMesh 互连,确保 NPU 间低延迟与高带宽通信,同时集成 UB IO 控 制器的 NPU 兼具计算与路由功能,支持间接通信路径优化,减少广播 域冲突;CPU 独立部署于专用板卡,通过低基数交换机与 NPU 动态互 连,可实现 CPU/NPU 比例灵活调整及 CPU/NPU/DDR 资源池化,提升 硬件利用率。机架间通过低基数交换机聚合四路 UB x256 接口,以无阻 塞方式管理跨机架连接,并横向扩展 2D FullMesh 至相邻四个机架,形 成 4D 层级互连,每个机架含 64 个 NPU,四机架构成 Pod 后总规模达 1024 个 ...
新财富·董秘特辑 | 叶静:多维赋能 积极传递公司长期价值
新财富· 2025-05-11 08:31
历经二十一载岁月沉淀,新财富金牌董秘评选已成为中国资本市场极具权威性与公信力的标杆评选,不仅见证 了中国资本市场蓬勃发展的壮阔征程,更以专业视角镌刻下时代变革的深刻印记。金牌董秘群体凭借卓越的专 业素养与创新实践能力,持续优化上市公司治理、深化投资者关系管理,已然成为推动中国资本市场向高质量 发展迈进的一股重要力量。 值此新财富董秘评选二十一周年之际,诚邀历届金牌董秘,分享企业战略、发展历程与职业经验,以实战洞见 解构资本风云,共探行业发展逻辑。 董事会秘书作为上市公司治理架构中的"关键齿轮",在资本市场运作中承担着承上启下、内外联动的 战略职能。优秀董秘既是合规运营的"守门人",更是价值创造的"助推器",其履职效能直接关乎上市 公司治理水平与可持续发展质量。 4月29日,第二十一届新财富金牌董秘、第八届新财富最佳IR港股公司获奖榜单揭晓。 依米康董事会秘书叶静女士,凭借其专业的知识、丰富的经验和敏锐的市场洞察力,从数千位上市公 司候选人中脱颖而出,荣获"第二十一届新财富金牌董秘"称号。 以法务智慧赋能公司治理 助力公司资本运作与行业共建 截至2024年末,依米康及下属子公司已揽获152项专利,186项著作权 ...
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 05:09
DeepSeek如何改变中国AI投资?具身智能距离清晰商业化还要多久?这些热门话题吸引了众多资深投资人热烈 讨论。在 "第19届中国投资年会·年度峰会"上, 投中网主编曹玮钰 与 红杉中国合伙人公元 等嘉宾就当下AI与具 身智能等话题举行了一场别开生面的对谈。 公元从商业化的角度分析,今天的创业模式与互联网时代很大的不同在于,明确的商业化路线的重要性已经让 位于技术的颠覆创新。因为一个新模型能力的突破,用户可以瞬间转移。而现在具身领域很有可能处在AI赛道 2018年的阶段,市场还没有看到GPT时刻。但只要创业者和投资人相信AGI的未来,行业就一定能做出来。 以下为现场实录整理: AI还是在快速变化的时候,大家说AI一天,人间一年。现在很难预测未来会是哪几家在线上,后训练和预 训练像两只脚一样,可能是个需要双轮前进的事情,所有的公司都在这两条线上做努力,谁会先迈出下一 只脚,更进一步,是大厂,还是创业公司,我觉得大家都不知道,我们刚刚开始。 Q Q 大家好,这个环节叫 DeepChat ,我们主要想聊一下人工智能和具身的话题。我先来问一个问题,人工智能 和具身这两个赛道是不是足够大,或者说仍有非常大的非共识? ...
芯片新贵,集体转向
半导体行业观察· 2025-05-10 02:53
在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。"训练芯片的市场不是大多数玩家 的竞技场",AI基础设施创业者坦言,"光是拿到一张大模型训练订单,就意味着你需要烧掉数千 万美元——而且你未必赢。" 如果您希望可以时常见面,欢迎标星收藏哦~ 在AI芯片这个波澜壮阔的竞技场上,一度被奉为"技术圣杯"的大规模训练,如今正悄然让位于更 低调、但更现实的推理市场。 Nvidia依然在训练芯片市场一骑绝尘,Cerebras则继续孤注一掷地打造超大规模计算平台。但其 他曾在训练芯片上争得面红耳赤的玩家——Graphcore、英特尔Gaudi、SambaNova等——正在 悄悄转向另一个战场:AI推理。 这一趋势,并非偶然。 AI训练作为一个重资本、重算力、重软件生态的产业,Nvidia的CUDA工具链、成熟的GPU生态 与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而Cerebras虽然另辟蹊径,推出 了超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。 正因如此,那些曾在训练芯片上"正面硬刚"Nvidia的创业公司,开始寻求更容易进入、更能规模 化落地的应用路径。推理芯片,成为最佳选项。 Gr ...
速递|OpenAI首投机构再出手!Khosla1750万美元押注“轻量化AI”Fastino,AI训练平民化
Z Potentials· 2025-05-08 05:33
图片来源: Fastino 科技巨头常吹嘘需要庞大昂贵 GPU 集群的万亿参数 AI 模型,但 Fastino 正采取截然不同的策略 这家位于帕洛阿尔托初创公司称,他们发明了一种新型 AI 模型架构,专为小型化和特定任务设计。 其模型小到仅需总值不足 10 万美元的低端游戏显卡即可完成训练。 该方法正引发关注。 Fastino 透露,已获得由 Khosla Ventures 领投的 1750 万美元种子轮融资,该风 投机构正是 OpenAI 的首个风险投资人。 这使得该初创公司的总融资额接近 2500 万美元。去年 11 月,它曾由微软风投部门 M12 和 Insight Partners 领投,在一轮预种子融资中筹集了 700 万美元。 "我们的模型速度更快、准确性更高,训练成本仅为旗舰模型的一小部分,同时在特定任务上表现优 于它们," Fastino 的CEO兼联合创始人 Ash Lewis 表示。 Fastino 开发了一套小型模型,销售给企业客户。每个模型专注于公司可能需要的特定任务,如敏感 数据脱敏或企业文档摘要。 Fastino 尚未透露早期指标或用户情况,但表示其性能已令早期用户惊叹。例如, L ...
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
量子位· 2025-05-08 04:04
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI UC伯克利团队研发出了一套新的机器人训练系统,可将视频动作迁移到真实机器人。 这个名为 VideoMimic 的新系统,已经让宇树G1机器人成功模仿了100多段人类动作。 VideoMimic的核心原理是从视频当中提取姿态和点云数据,然后在模拟环境中训练并最终迁移到实体机器人。 这项成果引起了网友们的一片哇声,还有人联想到了《加勒比海盗》中的杰克·斯帕罗,表示简直就像装上了一个Jack的API一样。 适应各种地形,还会爬台阶 为了训练机器人策略,研究团队收集了一个包含123个视频片段的数据集。 这些视频由手持设备在日常环境中拍摄,涵盖了不同的人体运动技能和场景。 在VideoMimic的训练下,宇树Go1已经学会了适应各种地形: 不用动作捕捉, 只用一段视频就能教会机器人学会人类动作 ,效果be like: 学会了跨越路肩: 而且学会了爬台阶,过程中还表演出了花式走位: 既然会上,当然也就能下: 并且在下楼梯的过程中,作者发现即使机器人的脚底发生较大滑动,训练得到的策略也能够快速做出反应并恢复平衡,从而避免跌倒。 除了以上各种行进动作之外,也会站起和坐下 ...
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
Xin Lang Ke Ji· 2025-05-07 11:12
Core Insights - Tencent's technical team has optimized the DeepEP communication framework, achieving significant performance improvements across various network environments, with a 100% performance increase in RoCE networks and a 30% increase in IB networks, enhancing AI large model training efficiency [1][2] Group 1: Technical Enhancements - The optimization involved replacing IBRC with IBGDA and utilizing distinct Queue Pairs (QPs) per channel for parallel data transmission, which improved the robustness and communication performance of the normal kernels [1] - The algorithm bandwidth for the optimized framework reached 58 GB/s in RDMA scenarios, with physical bandwidth calculated at 43.5 GB/s [1] Group 2: Industry Impact - Since the open-sourcing of DeepSeek, including DeepEP, in February, the framework has demonstrated a 300% increase in communication efficiency, addressing the dependency on NVIDIA NCCL for MoE architecture large models [2] - The optimizations have been successfully applied in Tencent's mixed Yuan model projects, showcasing excellent versatility in high-performance environments built with Tencent's Starry Network and H20 servers [2]
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 04:34
选自 Symbolic Capital 作者:Sam Lehman 机器之心编译 AI / 机器学习 scaling 简史 (极简版) 强化学习(RL)是当今 AI 领域最热门的词汇之一。近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意 义。 原文地址:https://www.symbolic.capital/writing/the-worlds-rl-gym 「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。」这句话形容当今的现代 AI 领域最为贴切。似乎每天都有新的突破性模型、训练方法或公司 涌现,迫使我们重新思考 AI 世界的可能性。今年早些时候是 DeepSeek,接下来是星际之门项目,现在还有 Qwen、Manus、MCP 等。谁知道接下来会发生什么? 目前,在打造更好的模型方面,通过预训练以及最近的测试时间计算进行 scaling 是引领性方法。但最近,随着 DeepSeek-R1 和 R1-Zero 的发布,人们开始更加亲 睐一种不同的模型 scaling 方法 —— 强化学习(RL)。本文的目标是探索基于 RL 的模型改进的含义,并会特别 ...
美的公布机器人‘上岗’计划,年薪36万美元的VR教练才是真 BOSS
Sou Hu Cai Jing· 2025-05-07 01:51
Core Insights - The humanoid robot sector has reached a peak in 2023, with significant developments and public interest surrounding the technology [1][3][10] - Major companies like Tesla, Lenovo, and Midea are competing to establish themselves in the humanoid robot market, which is projected to be worth trillions [4][10] Group 1: Company Developments - Midea plans to deploy its self-developed humanoid robots in its washing machine factory in Hubei by May 2023, with roles in machine operation, equipment inspection, and logistics [1] - Tesla's Optimus humanoid robot is on track for mass production, with expectations to have thousands in use by the end of 2023 and a projected annual output of over one million units within four to five years [6][10] - Lenovo has introduced its first humanoid robot, capable of interacting with customers and providing product recommendations, showcasing rapid response capabilities [6] Group 2: Market Trends - The Chinese humanoid robot market saw over 4 billion yuan in financing in the first quarter of 2025, with more than 30 financing events [3] - TrendForce predicts that the market value of humanoid robots in China will exceed 4.5 billion yuan by 2025 [3] Group 3: Technological Innovations - VR training is becoming a crucial tool for the development of humanoid robots, allowing for efficient training through real-time data mapping of human operators [11][15] - Companies like Tesla and Meta are exploring the use of VR and AR technologies to enhance robot training processes, which could revolutionize the efficiency of humanoid robot development [13][15] Group 4: Competitive Landscape - Various tech giants, including Baidu and Tencent, are investing in humanoid robot companies and developing their own AI models to strengthen their positions in the market [8][10] - The competition in the humanoid robot sector is not just about technology but also about capturing market share and shaping the future of intelligent manufacturing [10]