Workflow
阶跃星辰发布最强开源端到端语音大模型,开启终端人机交互语音新范式
IPO早知道·2025-09-01 04:06

本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,阶跃星辰日前正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模 型在多个国际基准测试集上取得 SOTA(State-of-The-Art,即当前最佳水平)成绩。在技术层 面,Step-Audio 2 mini 采用了真正的端到端多模态架构,并将语音理解、音频推理与生成统一建 模,不仅时延更低、输出更快,还能更加精准地理解副语言信息、非人声信号等语音要素,显著提升 了语音人机交互的效率和智能上限。目前,Step-Audio 2 mini 已经可在 GitHub、Hugging Face 等平台下载并体验。 | Model | MMAU | | URO Bench | | | CoVoST 2 | SSAD | StepEval-Audio- Paralinguistic | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | All | EN basic | ZH basic | EN pro | ZH pro ...