无人谈论的AI堆栈:数据采集作为基础设施
但在构建情境之前,它必须先 存在 。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集, 而是能够反映 当前 情况的强大管道。 人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU 的微调运行让人感到厌倦,而人 工智能堆栈中最被忽视 的力量倍增器却静静地位于这一切之下的一层: 数据 。 各位,这就是 基础设施 。如果说计算让 NVIDIA 变得不可或缺,那么我认为下一个重大突破不是更多层,而是更多信号 而 不是噪声 。而这始于将数据采集视为生产基础设施。 "好数据"是什么样的? 如果你正在构建一款 AI 原生产品,那么系统的智能程度将不再取决于你的提示有多巧妙,或者你能在上下文窗口中塞入多 少个标记。而是取决于你能多好地为它提供当下重要的上下文。 让我 们 明确一点:虽然扩展模型规模仍然很重要,但对于大多数现实世界的人工智能产品而言,性能提升越来越取决于数 据质量和新鲜度,而不仅仅是参数数量。将模型规模翻倍以榨取边际收益不仅成本高昂,而且在环境方面也难以为继,因为 惊人的电力和水成本根本无法扩展。 该瓶颈已从堆栈中移出。 构建 AI 原生产品的创始人和首席技术官 开始意识到,他们 ...