Workflow
小米小爱同学:资源受限下,实现端侧大模型的高性能推理
XIAOMIXIAOMI(HK:01810) AI前线·2025-06-25 04:15

采访嘉宾|杨永杰,小米 小爱同学端侧 AI 负责人 编辑|罗燕珊 近日,InfoQ 对话 小米 / 小爱同学端侧 AI 负责人杨永杰,带你深入了解其团队如何从架构、系 统和算法三层着手,推进大模型在端侧的工程化落地。他们通过自研推理框架实现了 180 tokens/s 的实时推理性能 ,借助 LoRA 插件化 + 共享基座模型 支持多业务复用,并在推理性 能和资源占用上实现了极致优化。 面向未来,杨永杰认为,端侧大模型的突破将依赖两方面:一是面向大模型优化的硬件能力提 升,二是模型架构的演进,比如 Linear Attention 架构。 6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会 上,杨永杰将发表演 讲《 小爱同学在高性能端侧大模型推理的实践 》,分享其团队自研的大模型推理框架在实际业务 中的落地实践。围绕架构设计、量化策略、并行解码、跨芯片兼容、热更新策划等方面展开,结 合真实的系统优化痛点,解析端侧大模型商业化的关键路径。 敬请期待: https://aicon.infoq.cn/2025/beijing/presentation/6444 InfoQ:端侧大模型 ...