速递｜5秒样本完成声音克隆，Mistral发布新开源语音模型，正在补齐语音全栈

图片来源： Getty Images 法国人工智能公司 Mistral 于周四发布了一款新的开源文本转语音模型，该模型可用于语音 AI 助手或客户支持等企业应用场景。这款模型允许企业构建用于销售和客户互动的语音助手，使 Mistral 直接与 ElevenLabs 、 Deepgram 和 OpenAI 等公司展开竞争。这款名为 Voxtral TTS 的新模型支持九种语言，包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。 Mistral AI 科学运营副总裁皮埃尔·斯托克在电话采访中对 TechCrunch 表示："我们的客户一直希望获得语音模型。因此我们构建了一款小型语音模型，能够适配智能手表、智能手机、笔记本电脑或其他边缘设备。其成本仅为市场上其他产品的零头，却能提供最先进的性能。" Mistral 表示，这款新模型能够通过不到五秒的音频样本适配定制语音，并能捕捉细微口音、语调变化、声调起伏以及言语流中的不规则特征。该模型基于 Ministral 3B 架构，可轻松在不同语言间切换且不丢失语音特征，适用于配音或实时翻译等场景。 Stock 指出，公司希望模型呈现人 ...