Workflow
多模态统一模型
icon
Search documents
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
量子位· 2025-07-30 04:48
AIGC 的范式,已经被悄然 改变。 从割裂地处理文本、图像、声音,到现在,大众在应用领域的反馈已经证明, AI需要以更接近人类认知的方式,融合多模态信息 。 新的技术趋势值得关注,也有人第一时间开源了对新范式的深入思考: 鱼羊 西风 发自 凹非寺 量子位 | 公众号 QbitAI 听说了吗,GPT-5这两天那叫一个疯狂造势,奥特曼怕不是真有些急了 (doge) 。 但有一说一,回顾上半年最火AI事件,GPT-4o带来的"吉卜力"风暴,还是热度TOP。 △ 数据来自微信指数 不仅由"万物皆可吉卜力"为始,GPT-4o生图功能被网友们疯玩至今,更重要的是,还引发了更深的技术思考: 昆仑万维已开源 多模态统一模型Skywork UniPic ,和GPT-4o呈现出类似的图像一体化能力,在单一模型里实现 图像理解、文本到图像生 成、图像编辑 三大核心能力的深度融合。 对生图提示词的理解力,是这样的: 提示词:两位寿司师傅在江户时代熙攘的街市投掷彩虹寿司。他们头顶的纸灯笼明灭闪烁。整个场景呈现出像素化的复古游戏画风。 把图片转换成吉卜力风格,也很有内味儿: 并且相比狂卷大参数量的同类模型,Skywork UniPic ...