Workflow
屏幕即服务
icon
Search documents
开天眼的豆包来势汹汹
3 6 Ke· 2025-05-30 02:35
去年火山引擎大会上,豆包团队展示一项功能: 用摄像头对准一个物体提问,AI能实时作答。当时看完演示视频,我有一个念头:如果做成了,AI 真 的「长」眼睛了。 但这类技术从演示到落地,需要时间。毕竟,理解真实世界的视觉信息,远比生成文字或图像复杂得 多;过去大半年我一直关注进展,直到上周六,终于上线了:视频通话功能。 多数人把它当作新奇玩意儿,用来玩梗、搞笑。我认为,这是一个技术拐点,它会在商业世界里引发一 系列新的想象。 01 可以先思考一个问题:视觉理解跟传统的图像识别,有什么本质不同?可能有三点关键差异。 首先,技术从"标签化"走向"语义化"。 以前图像识别,是一个巨型分类器。你给它一张图,它能告诉你这是猫、那是苹果,仅此而已,它的逻 辑,靠大量打标签的数据训练出来的。 看到某种像素组合,就知道对应哪个对象,但它不理解猫为什么会在这儿,也不知道苹果放在厨房和实 验室意味着什么。 语义化不一样。当看到一张"猫躺在沙发上的照片",AI要识别出猫和沙发这两个元素,还要理解「躺 着」的状态、「沙发」这个环境,甚至推测这是一个安静的家庭场景:猫在休息,家里没人打扰。 它开始解析背后的"故事",进行推理和常识判断。这 ...