智谱上线GLM-4-Voice端到端情感语音模型：迈向AGI之路的最新一步

发布即开源，这也是智谱首个开源的端到端多模态模型。本文为IPO早知道原创作者｜C叔微信公众号｜ipozaozhidao 据IPO早知道消息，智谱于10月25日上线了GLM-4-Voice 端到端情感语音模型。 GLM-4-Voice 能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。作为端到端的语音模型，GLM-4-Voice 避免了传统的 "语音转文字再转语音" 级联方案过程中带来的信息损失和误差积累，也拥有理论上更高的建模上限。整体而言，GLM-4-Voice 具备以下特点：1、情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。2、调节语速：在同一轮对话中，可以要求 TA 快点说 or 慢点说。3、随时打断，灵活输入指令：根据实时的用户指令，调整语音输出的内容和风格，支持更灵活的对话互动。4、多语言、多方言支持：目前 GLM-4-Voice 支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话、北京话等。5、结合视频通话，能看也能说：即将上线视频通话功能，打造在保持一贯发布即上线风格的同时，GLM-4- ...