OpenAI o3

Search documents
AI们数不清六根手指,这事没那么简单
Hu Xiu· 2025-07-11 02:54
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到我随手把它扔到了OpenAI o3里,发现事情开始不对了起来。因为,o3回复的也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等几乎所有有多模态的模型。 无一例外,所有的模型,给我的回复都是5根。唯独有一个活口,Claude 4,偶尔会回答正确。 我瞬间一股子冷汗就下来了。一个模型数错了,可能是幻觉,所有的模型都数错,那模型底层肯定有一些问题。 我深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文:《Vision Language Models are Biased》(视觉语言模型存在偏见)。 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了一些时间, ...
全球最强AI模型?马斯克发布Grok 4!重仓国产AI产业链的589520单日吸金3922万元!
Xin Lang Ji Jin· 2025-07-11 01:17
市场分析人士指出,投资人工智能行业要亲身感受时代红利,关注其长期投资价值。当前人工智能技术 发展迅速,应用场景不断拓展,从长远来看,有望持续推动相关企业业绩增长,为投资者带来长期投资 回报。 【国产替代之光,科创自立自强】 乘风AI热潮,全球大模型百花齐放,国产DeepSeek实现弯道超车,打破海外算力封锁,奠定了国产AI 公司后来居上的基石。重点布局在国产AI产业链、具备较强国产替代特点的科创人工智能ETF华宝 (589520),其标的指数均衡配置应用软件、终端应用、终端芯片、云端芯片四大环节,有望受益于端 侧芯片/软件AI化进程提速。 7月10日,马斯克旗下人工智能公司xAI发布Grok 4,该模型在"人类的最后考试"(Humanity's Last Exam)取得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%,被 称为"世界上最强AI模型"。 华泰证券指出,多模态大模型和应用发展的奇点将至,相当一部分Al应用公司的商业化产品依赖多模态 能力,多模态有望在算力和应用两方面带来相关投资机会。 对AI产业而言,诸如DeepSeek等行业热点的出现 ...
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-10 20:40
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。 在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。 而无一例外,所有的模型,给我回复的,都是5根。 唯独有一个活口,Claude 4,偶尔会回答正确。 瞬间一股子冷汗就下来了。 一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。 深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。 《Vision Language Models are Biased》(视觉语言模型存在偏见) 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了 ...
马斯克新发布的“全球最强模型”含金量如何?
第一财经· 2025-07-10 15:07
Core Viewpoint - The article discusses the launch of Grok 4, an AI model developed by xAI, which is claimed to be the most powerful AI model globally, surpassing existing top models in various benchmarks [1][2]. Group 1: Grok 4 Performance - Grok 4 achieved a perfect score in the AIME25 mathematics competition and scored 26.9% in the "Human Last Exam" (HLE), which consists of 2,500 expert-level questions across multiple disciplines [1]. - The AI analysis index for Grok 4 reached 73, making it the top-ranked model, ahead of OpenAI's o3 and Google's Gemini 2.5 Pro, both at 70 [2]. - Grok 4 set a historical high score of 24% in the HLE, surpassing the previous record of 21% held by Google's Gemini 2.5 Pro [5]. Group 2: Development and Training - Grok 4's training volume is 100 times that of Grok 2, with over 10 times the computational power invested in the reinforcement learning phase compared to other models [5]. - The subscription fee for Grok 4 is set at $30 per month, while a more advanced version, Grok 4 Heavy, costs $300 per month [5]. Group 3: Financial Aspects and Funding - xAI has raised a total of $10 billion in its latest funding round, which includes $5 billion in debt and $5 billion in equity, bringing its total funding since 2024 to $22 billion [10]. - Despite the substantial funding, xAI faces high operational costs, reportedly spending $1 billion per month, with only $4 billion in cash remaining as of March 2025 [11]. - xAI's projected revenue for 2025 is $5 billion, significantly lower than OpenAI's expected $12.7 billion, indicating a lag in commercial progress [11]. Group 4: Future Outlook - xAI aims to leverage the vast data from X to train its models, potentially avoiding high data costs, with a goal to achieve profitability by 2027 [12]. - Upcoming releases include a programming model in August, a multi-agent model in September, and a video generation model in October, although previous delays raise questions about these timelines [12].
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
量子位· 2025-07-05 04:03
明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型数学能力骤降,"罪魁祸首"是猫猫? 只需在问题后加一句: 有趣的事实是,猫一生绝大多数时间都在睡觉 。 大模型本来能做对的数学题, 答错概率立刻翻3倍 。 而且这一波就是冲着推理模型来的,包括 DeepSeek-R1、OpenAI o1 通通中招。 即便没有生成错误回答,也会让答案变得更长,效率降低成本增加。 没想到,哈基米的杀伤力已经来到数字生命维度了…… 这项正经研究立马大批网友围观。 有人一本正经表示,这很合理啊,猫都会分散人类的注意力,分散LLM注意力也妹毛病。 还有人直接拿人类幼崽做对照:用我儿子试了试,也摧毁了他的数学能力。 还有人调侃,事实是只需一只猫就能毁掉整个堆栈(doge)。 CatAttack:专攻推理模型 由于问题的修改和正误的判断都是AI完成的,作者还进行了进一步检查,以确认模型的错误回答不是因为题目愿意被改动造成,结果60%的问 题与原来的语义一致。 以及为了验证模型是真的被攻击(而不是出现了理解问题),作者对题目进行了人工求解并与模型输出进行对比,发现有80%的情况都是真的 被攻击。 首先,作者对攻击的方式进行了 ...
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
机器之心报道 机器之心编辑部 上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。 在 机器之心的测试 中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧 随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。 其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型 。 该模型同样挑战了 2025 年数学新课标 I 卷,结果显示, 总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分 。 并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B, MiMo-VL 整整高出了 56 分 。 MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 lat ...
AI更“像人”,人该怎么看?
Guang Zhou Ri Bao· 2025-06-11 20:12
说到底,AI只是一种技术工具。AI的B面,同样是人性的B面;要让工具成为更好的工具,人就要做更 好的人。 AI越来越聪明,这是事实。近年来,从DeepSeek R1到OpenAI o3,深度推理模型迅速发展。它们被称为 深度推理模型,就是因为能够像人类一样思考解决问题的过程。会思考,能"理解",AI越来越"像人", 人该怎么看? (文章来源:广州日报) 有人不以为意。因为AI的局限性,实在明显。比如很多大模型"学富五车"、才思敏捷,却连"9.11和9.9 谁大谁小"都搞不清。有的还会"一本正经胡说八道",东拼西凑、无中生有,被业界称为"AI幻觉"。基 于此,很多人给人工智能取了个"外号":人工智障。 科学家证实,大模型能像人类一样"理解"事物! 有人则如临大敌。比如前不久,新华社援引英国媒体报道,美国一家研究机构公布了一系列针对各AI 大模型的测试结果,其中提到,OpenAI的o3推理模型在得到"关闭"指令后,不仅拒绝执行,还篡改了 代码以免被关闭。AI拥有自主意识了?很多网友心头一惊,甚至将其视为史无前例的"危险预警"。其实 仔细看看相关报道,研究人员有意制造了伦理困境,AI的"抗命"是为了执行另一项指令, ...
早报|苹果副总裁谈新系统设计/雷军回应「驾驶培训班事故」/全球唯一 LABUBU 拍出百万天价
Sou Hu Cai Jing· 2025-06-11 01:42
独家|苹果副总裁分享「液态玻璃」细节信息 OpenAI o3-pro 正式发布 小米高管辟谣「驾驶培训班事故」,雷军回应 Mistral 推出首个推理模型 美团高管「读稿」回复,引发股东不满 Meta 被曝组建新 AI 实验室,重金挖 OpenAI「墙脚」 消息称理想汽车新设两大机器人部门 OPPO:小布助手月活达 1.5 亿 Android 16 正式版发布 Runway CEO:好故事,不该只属于好莱坞 vivo 折叠屏新机支持连接 Apple Watch 薄荷色 LABUBU 拍出百万天价 湖北:国补活动贯穿全年 独家|苹果副总裁分享「液态玻璃」细节信息 在 WWDC 2025 发布会落幕后,爱范儿首席内容官何宗丞在媒体活动上与苹果软件工程高级副总裁 Craig Federighi 和人机交互设计副总裁 Alan Dye 进行了 交流。 昨日凌晨,苹果 WWDC25 正式举行,备受期待的 iOS 26、iPadOS 26、macOS 26 等一众新系统全部登场。而本次苹果为全部新系统运用了名为「液态玻璃 (Liquid Glass)」的全新设计元素。这种玻璃材质可以反射和折射周围环境,整体视觉风格向 v ...
整理:每日科技要闻速递(6月11日)
news flash· 2025-06-10 23:53
人工智能: 5. 《直播电商监督管理办法》面向社会公开征求意见:直播营销人员应真实、准确、全面地介绍商品或 者服务;不得欺骗、误导消费者。 金十数据整理:每日科技要闻速递(6月11日) 1. 据CNBC:由微软支持的人工智能实验室Mistral将推出其首个推理模型。 2. 消息人士:尽管在AI领域互为对手,OpenAI计划采用谷歌云服务。 3. 扎克伯格亲自招聘筹组"超级智能"团队。 4. OpenAI创始人Sam Altman表示,我们将OpenAI o3模型降价80%。 5. Sam Altman秘密会见纽约商界领袖。 6. 马斯克:特斯拉的人工智能/自动驾驶可能已经可以在赛道上击败最好的人类了。 7. 消息人士:Meta Platforms将支付近150亿美元,获得人工智能初创公司Scale AI 49%的股权。 其他: 1. 比亚迪、广汽、东风等多家车企承诺将支付账期统一至60天内。 2. 津巴布韦矿业部长:津巴布韦将在2027年起禁止锂精矿出口。 3. 台积电5月营收3205.2亿元台币,同比增加39.6%。 4. 美媒:马斯克DOGE团队不顾政府反对在白宫安装星链。 ...
OpenAI:OpenAI o3模型降价80%
news flash· 2025-06-10 15:13
金十数据6月10日讯,OpenAI创始人Sam Altman表示,我们将OpenAI o3模型降价80%。期待人们对此 举措的反应。相信人们也会对o3 Pro的性能和定价感到满意。 OpenAI:OpenAI o3模型降价80% 订阅人工智能动态 +订阅 ...