英伟达叫板DeepSeek?怒投260亿美元,要打造最强开源模型
编辑|冷猫 昨天,我们报道了 英伟达 CEO 黄仁勋的长博客 。 在文中他认为,人工智能是当今塑造世界最强大的力量之一。它不是一个应用,也不是单一模型,而是如同电力和互联网一般的关键基础设施。 人工智能基础设施被分成了 「五 层蛋 糕」 : 能源 → 芯片 → 基础设施 → 模型 → 应用 。 事实上,英伟达本身已经成为了人工智能时代基础设施的一部分,尤其是芯片,以及「AI 工厂」类基础设施。 而黄老板的期待远不止如此,英伟达似乎正在尝试进入「五层蛋糕」的每一层。在 2023 年 11 月,英伟达推出首个 Nemotron 模型 ,说明英伟达正式尝试进入通 用大模型领域,开始尝试将 CUDA 生态与自研模型深度结合的路径。 Nemotron 系列模型尝试过很多技术路线,包括多种混合架构模型,有 Mamba-Transformer 的 Nemotron-H , Llama-Nemotron , Jet-Nemotron 等等,一直到近期的 混合专家架构的 Nemotron 3 …… 虽说英伟达在这些开源模型中不乏性能强大的模型,甚至站在过开源模型的第一梯队,但大家都能看出 Nemotron 似乎总带着点技术试验 ...