Workflow
先验知识
icon
Search documents
AI们数不清六根手指,这事没那么简单
Hu Xiu· 2025-07-11 02:54
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到我随手把它扔到了OpenAI o3里,发现事情开始不对了起来。因为,o3回复的也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等几乎所有有多模态的模型。 无一例外,所有的模型,给我的回复都是5根。唯独有一个活口,Claude 4,偶尔会回答正确。 我瞬间一股子冷汗就下来了。一个模型数错了,可能是幻觉,所有的模型都数错,那模型底层肯定有一些问题。 我深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文:《Vision Language Models are Biased》(视觉语言模型存在偏见)。 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了一些时间, ...
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-10 20:40
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。 在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。 而无一例外,所有的模型,给我回复的,都是5根。 唯独有一个活口,Claude 4,偶尔会回答正确。 瞬间一股子冷汗就下来了。 一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。 深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。 《Vision Language Models are Biased》(视觉语言模型存在偏见) 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了 ...
OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场
Founder Park· 2025-04-17 12:12
有评论称这篇文章是 「 Bitter Lesson」级别的存在,或许是因为和 「 Bitter Lesson」类似,这篇文章也试图从 high level 指出 AI 研究中一种思维范 式的彻底改变。 「 Bitter Lesson 」启发了大家从 「 人类指导 AI」转向算力和数据的 scaling,而 The Second Half 告诉大家 在 RL 全面到来时,我 们应该彻底重新思考问题定义和真实用例的 evaluation。 姚顺雨本科毕业于清华姚班,是姚班联席会主席,2024 年从 Princeton 博士毕业后加入 OpenAI 担任 Research Scientist,参与了 OpenAI 的 Computer-Using Agent,Deep Research 等多个产品项目。他是 Agent 领域的最前沿探索者,这个领域不少最重要的 framework 和 benchmark 都来自 他 Phd 期间的工作:ReAct、Tree of Thought、SWE_Bench。 这篇博客主要内容来自姚顺雨在 CS 224N 和 Columbia 大学所做的演讲。 Founder Park 正在 ...