Workflow
“计算机视觉被GPT-4o终结了”(狗头)
量子位·2025-03-29 07:46

一个男友回头表情包,可以秒变 语义分割 图。 也可以秒变 深度图 。 这下不光上一代AI画图工具和设计师,计算机视觉研究员也哭晕在厕所了。 这是NASA前工程师测试特斯拉自动驾驶系统的伪装"隐形墙",在GPT-4o面前也无所遁形。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,CV被大模型"解决"了 (狗头) 。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 这下OpenAI应用研究主管 Boris Power 已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。 3D渲染领域也惨遭毒手,GPT-4o可以生成 PBR材质 (基于物理渲染的材质),纹理、法线贴图等直接来一套。 对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet就可以 全部实现。 但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。 GPT-4o图像生成是自回归模型 这波GPT-4o原生图像生成的技术细节,OpenAI是一点也没有公布(粗节也没有公布)。 但还是有人从System Card中发现了蛛丝马迹。 与DALL·E是一个扩散模 ...