Workflow
阿里一夜扔出三个开源王炸,猛刷32项开源SOTA
3 6 Ke·2025-09-23 09:06

Qwen3-Omni能无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。其在36项音频及音视频基准测试 中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达 到SOTA水平。 Qwen3-TTS支持17种音色与10种语言,在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品。 Qwen-Image-Edit-2509的首要更新是支持多图编辑,可以拼接不同图片中的人物+人物、人物+物体等。 阿里开源主页 阿里开源了Qwen3-Omni-30B-A3B-Instruct(指令跟随)、Qwen3-Omni-30B-A3B-Thinking(推理)和通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。 智东西9月23日消息,深夜,阿里通义大模型团队连放三个大招:开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen- Image-Edit- ...