Voxtral模型

Search documents
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
3 6 Ke· 2025-08-30 16:34
北京时间8月29日凌晨,OpenAI通过直播发布其迄今最先进的端对端语音模型(Speech-to-Speech)GPT-Realtime,并宣布Realtime API全 面进入生产环境。相较于之前的语音AI产品,GPT-Realtime性能更优,价格更低,旨在帮助开发者更轻松地构建高效、可靠的语音智能 体。 伴随性能提升,GPT-Realtime的定价大幅优化,较上一代产品GPT-4o-Realtime-Preview降低20%。此前,GPT-4o-Realtime-Preview价格为 每百万音频输入tokens 40美元,每百万音频输出tokens 80美元。GPT-Realtime调整后价格为每百万音频输入tokens 32美元(缓存输入 tokens 0.40美元),每百万音频输出tokens 64美元。这一优化定价让开发者能以更低成本构建高效的语音智能体,同时享受更卓越的性 能。 OpenAI还优化了对话上下文管理,开发者可灵活设置token限制并一次性截断多轮对话,显著降低长会话成本。 01.深入解析:更智能、更具表现力的语音模型 函数调用:为在现实世界中发挥作用,语音智能体必须有效使用外部工具 ...