速递|5秒样本完成声音克隆,Mistral发布新开源语音模型,正在补齐语音全栈
Z Potentials·2026-03-27 11:12
图片来源: Getty Images 法国人工智能公司 Mistral 于周四发布了一款新的开源文本转语音模型,该模型可用于语音 AI 助手或客户支持等企业应用场景。 这款模型允许企 业构建用于销售和客户互动的语音助手,使 Mistral 直接与 ElevenLabs 、 Deepgram 和 OpenAI 等公司展开竞争。 这款名为 Voxtral TTS 的新模型支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。 Mistral AI 科学运营副总裁皮埃尔·斯托克在电话采访中对 TechCrunch 表示:"我们的客户一直希望获得语音模型。因此我们构建了一款小型语音模 型,能够适配智能手表、智能手机、笔记本电脑或其他边缘设备。其成本仅为市场上其他产品的零头,却能提供最先进的性能。" Mistral 表示,这款新模型能够通过不到五秒的音频样本适配定制语音,并能捕捉细微口音、语调变化、声调起伏以及言语流中的不规则特征。该模 型基于 Ministral 3B 架构,可轻松在不同语言间切换且不丢失语音特征,适用于配音或实时翻译等场景。 Stock 指出,公司希望模型呈现人 ...