字节把GPT-4o级图像生成能力开源了!
量子位·2025-05-24 06:30
一水 发自 凹非寺 量子位 | 公众号 QbitAI 字节最近真的猛猛开源啊…… 这一次,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏"万物皆可吉卜力"玩法~) 不止于此,其最新融合的 多模态模型BAGEL 主打一个"大一统", 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。 各种花式玩法be like: 虽然活跃参数只有7B (总计14B) ,但它已经实现了图像理解、生成、编辑等多冠王,实力超越或媲美一众顶尖开源 (如Stable Diffusion 3、FLUX.1) 和闭源 (如GPT-4o、Gemini 2.0) 模型。 模型一经发布,不仅迅速登上Hugging Face趋势榜,还立即在引发热议。 有网友见此连连感慨,"字节像领先了整整一代人"。 OpenAI研究员也公开赞赏, 字节Seed团队在他心目中已经稳居顶级实验室之列。 Okk,我们直接来看BAGEL模型有哪些玩法。 一个模型实现所有多模态功能 作为多模态模型,掌握 带图推理 算是如今的一个入门级挑战。 扔给它叠放整齐的一块布料,让它想象出布料展开后的样子。 可以看到,生成之前BAGEL模型会 自动进行推理 ,并规划 ...