网易游戏 Tmax 平台实践:基于 Fluid 的云原生 AI 大模型推理加速架构
AI前线·2026-03-03 04:05

作者 | 廖海峰,张翔 背景:游戏行业智能化浪潮下的 基础设施不断演进 作为中国领先的游戏研发与运营公司,网易游戏旗下拥有《梦幻西游》《大话西游》《蛋仔派对》等国民级游戏产品,以及游戏资产交易平台"藏宝阁"等 重要服务生态。随着游戏产品矩阵的不断扩大和用户体验需求的持续升级,网易游戏需要处理的数据类型和业务场景日益复杂多样。 而大模型正深刻改变游戏行业。 在 NPC 智能化、自动化剧情生成、角色动作捕捉及游戏资产生成等场景,特别是 RPG 与社交类游戏中,大模型已成为 核心竞争力。 为了更好地通过生成式 AI 支持业务发展,网易游戏打造了面向云原生的 Tmax AI 机器学习平台 ,提供灵活的资源调度、高效的 AI 开发 效率与易托管的 AI 服务。 挑战:大模型推理服务的 Tmax 平台构建于 Kubernetes 之上,整合了 Kubeflow、自研调度器及 CubeFS 文件管理系统,支持从 Jupyter 交互式开发到分布式训练、再到模型推理 部署的全链路 AI 生命周期管理。然而,随着大模型推理业务规模爆发,平台在 资源弹性、数据访问效率与多地域协同 方面面临严峻挑战。 "不可能三角" 在构建推理服 ...