Workflow
声音克隆产品
icon
Search documents
多模态都是假的:最强模型数不清手指、认不出雷碧
Hu Xiu· 2025-07-22 07:21
因为最近接了个图像相关AI项目,在看各种视觉AI相关文章,过程中看了一篇很有意思的文章:AI们数不清六根手指,这事没那么简单。 一时兴起马上用上了我最强的GPT模型,结果一不小心忘了传图片,却不想提前暴露了意图: 于是在AI几乎清楚意图的情况下,我上传了图片: 果不其然,他还是给出了标准答案:这张图里是一只自然张开的手掌,可以清楚地看到 5根手指。 在这个情况下,我追问了一个:你确定?AI再次识别我的意图,但依旧给出了错误的回答: 而后无论我怎么调戏,AI就是不为所动: 所以这是为什么呢? 一、所谓多模态 事实上在2年前,业内也有很多号称多模态的模型,其实他连训练都没做,其本质是OCR,并且还挺好用的。 PS:另一方面,声音的数据样本获取成本低一些,量大管饱 但到视觉这里就比较尴尬了,不懂行的同学可能真的以为模型能看见东西,事实上模型什么都看不见! 对于模型来说,图像是二维空间数据,加上颜色通道后会更复杂一点,比如: 一张 224x224 的彩色图 → 形状为 [224, 224, 3] 的张量,包含 150528 个数值(0-255)。 如果需要模型(AI)能识别他的话,就需要做进一步处理,将数字化的图像转 ...