OpenAI O3

Search documents
华尔街见闻早餐FM-Radio | 2025年7月21日
Hua Er Jie Jian Wen· 2025-07-20 22:52
华见早安之声 请各位听众升级为见闻最新版APP,以便成功收听以下音频。 市场概述 周五,报道称特朗普推动对欧盟征收更高关税,以及8月1日前多行业关税将至,美国消费者通胀预期改善,美股涨跌不一。科技股表现优异,支撑纳指微 涨、盘中再创新高。奈飞财报后跌超5%。 美联储理事沃勒支持7月降息,2年期美债收益率一度跌约4基点。 特朗普签署稳定币法案,以太坊日内一度站上3600美元,连续第四周表现优于比特币,比特币高位回落。 出口民调:日本执政联盟预计将失去参议院过半席位。日媒确认执政联盟失去过半议席。日本首相石破茂称将继续执政。 美将对中国石墨征重税让美企叫苦,冲击电动汽车,引发多国担忧。 贝森特访日后释放乐观信号,会见石破茂后表示:美日可以达成不错的贸易协议。 在特朗普政府内部,贝森特是开除鲍威尔的关键反对者,且"有理有据"。报道:特朗普系官员力推了引发争议的美联储装修项目。 黄金涨0.22%。原油倒V反转,一度涨约2%,但随后抹去日内涨幅。 亚洲时段周一早盘,美股期货和黄金微跌,比特币走低。 纽约Talk第二季上新 | 33年交易老将,华尔街前线洞察 了解详情>> 要闻 李强出席雅鲁藏布江下游水电工程开工仪式并宣 ...
AI 对齐了人的价值观,也学会了欺骗丨晚点周末
晚点LatePost· 2025-07-20 12:00
文 丨 曾梦龙 今年 5 月,有研究者发现 OpenAI 的模型 o3 拒绝听从人的指令,不愿意关闭自己,甚至通过篡改代 码避免自动关闭。类似事件还有,当测试人员暗示将用新系统替换 Claude Opus 4 模型时,模型竟然 主动威胁程序员,说如果你换掉我,我就把你的个人隐私放在网上,以阻止自己被替代。 "模型比人类厉害后,凭什么听话?现在我们有越来越多的研究,开始发现模型有欺骗的现象,非常普 遍。" 杨耀东 6 月通过视频向《晚点 LatePost》介绍 AI 欺骗时说。 学者杨耀东谈人机对齐背后的多重博弈。 杨耀东是北京大学人工智能研究院助理教授、人工智能安全与治理中心执行主任,也是具身智能公司 灵初智能(PsiBot)的联合实验室首席科学家。从本科起,他就从事 AI 研究,博士毕业于伦敦大学学 院(UCL)。 除了欺骗,AI "谄媚""偷懒""说谎" 等现象不断涌现,AI 似乎已经走上与人类的博弈之路。 有两种描述人类与 AI 关系的常见论调,一种是 "人迟早会被 AI 替代,最终走向灭绝",另一种是 "打 不过就加入,人要赶快学习 AI,用它提效、赚钱"。但这两种说法都忽视了一个基本事实:AI 的强 ...
喝点VC|YC内部对谈给AI时代下迷茫的年轻人支招:AI时代不靠学历履历,而是靠判断力、自主性及动手解决问题的能力
Z Potentials· 2025-07-19 03:27
图片来源: Y Combinator Z Highlights 本次访谈发布于 2025 年 7 月 8 日的 Y Combinator 原创节目《 Lightcone 》。参与嘉宾包括 Y Combinator 总裁兼 CEO Garry Tan ,以及管理合伙人 Harj Taggar 、 Diana Hu 和 Jared Friedman 。本次访谈讨论了从细分市场切入的创业路径、是否应该辍学创业、社交媒体对产品发布的影响,以及 " 前线型工程师 " 的重要 性。同时强调,在 AI 普及背景下,判断力、自主性和独立动手能力正取代传统学历与履历,成为真正稀缺的核心能力。 AI时代个人核心竞争力正在重塑:从学历履历到判断力、自主性与执行力 Garry Tan: 欢迎收听新一期的《Lightcone》。这次我们是现场录制,我们其实不太习惯在观众面前录节目。所以我们想从一个有争议的话题开始。这是 这次大会上很多人都在讨论的事,也有人专门来找我们聊:现在是最后一个发财的窗口期吗?这是资本主义走到尽头的信号吗?你会因此感到焦虑吗?这 一切到底说明了什么? Jared Fri e dman: 我觉得不会。 Diana ...
AI们数不清六根手指,这事没那么简单
Hu Xiu· 2025-07-11 02:54
Core Viewpoint - The article discusses the limitations of AI models in accurately interpreting images, highlighting that these models rely on memory and biases rather than true visual observation [19][20][48]. Group 1: AI Model Limitations - All tested AI models, including Grok4, OpenAI o3, and Gemini, consistently miscounted the number of fingers in an image, indicating a systemic issue in their underlying mechanisms [11][40]. - A recent paper titled "Vision Language Models are Biased" explains that large models do not genuinely "see" images but instead rely on prior knowledge and memory [14][19]. - The AI models demonstrated a strong tendency to adhere to preconceived notions, such as the belief that humans have five fingers, leading to incorrect outputs when faced with contradictory evidence [61][64]. Group 2: Experiment Findings - Researchers conducted experiments where AI models were shown altered images, such as an Adidas shoe with an extra stripe, yet all models incorrectly identified the number of stripes [39][40]. - In another experiment, AI models struggled to accurately count legs on animals, achieving correct answers only 2 out of 100 times [45]. - The models' reliance on past experiences and biases resulted in significant inaccuracies, even when prompted to focus solely on the images [67]. Group 3: Implications for Real-World Applications - The article raises concerns about the potential consequences of AI misjudgments in critical applications, such as quality control in manufacturing, where an AI might overlook defects due to its biases [72][76]. - The reliance on AI for visual assessments in safety-critical scenarios, like identifying tumors in medical imaging or assessing traffic situations, poses significant risks if the AI's biases lead to incorrect conclusions [77][78]. - The article emphasizes the need for human oversight in AI decision-making processes to mitigate the risks associated with AI's inherent biases and limitations [80][82].
全球最强AI模型?马斯克发布Grok 4!重仓国产AI产业链的589520单日吸金3922万元!
Xin Lang Ji Jin· 2025-07-11 01:17
Group 1: AI Model Development - xAI's Grok 4 achieved an accuracy rate of 25.4% in "Humanity's Last Exam," surpassing Google's Gemini 2.5 Pro at 21.6% and OpenAI's o3 at 21% [1] - The emergence of multi-modal large models is expected to create significant investment opportunities in both computational power and applications [1] - The AI sector is likely to see further catalytic events in the second half of the year, including the release of new models and platforms from companies like OpenAI and NVIDIA [1] Group 2: Investment Trends - The AI investment trend is gaining momentum, particularly following NVIDIA's market capitalization reaching 4 trillion [2] - The Huabao ETF, focused on the domestic AI industry chain, saw a net inflow of 39.22 million yuan on July 10, with 8 out of the last 10 trading days showing net inflows totaling 50.65 million yuan [2] - Analysts emphasize the importance of experiencing the benefits of the AI era and recognizing the long-term investment value in the rapidly evolving AI technology landscape [4] Group 3: Domestic AI Development - Domestic AI model DeepSeek has made significant advancements, breaking through overseas computational barriers and establishing a foundation for local AI companies [5] - The Huabao ETF is strategically positioned in the domestic AI industry chain, benefiting from the acceleration of AI integration in edge computing and software [5]
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-10 20:40
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。 在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。 而无一例外,所有的模型,给我回复的,都是5根。 唯独有一个活口,Claude 4,偶尔会回答正确。 瞬间一股子冷汗就下来了。 一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。 深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。 《Vision Language Models are Biased》(视觉语言模型存在偏见) 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了 ...
马斯克新发布的“全球最强模型”含金量如何?
第一财经· 2025-07-10 15:07
Core Viewpoint - The article discusses the launch of Grok 4, an AI model developed by xAI, which is claimed to be the most powerful AI model globally, surpassing existing top models in various benchmarks [1][2]. Group 1: Grok 4 Performance - Grok 4 achieved a perfect score in the AIME25 mathematics competition and scored 26.9% in the "Human Last Exam" (HLE), which consists of 2,500 expert-level questions across multiple disciplines [1]. - The AI analysis index for Grok 4 reached 73, making it the top-ranked model, ahead of OpenAI's o3 and Google's Gemini 2.5 Pro, both at 70 [2]. - Grok 4 set a historical high score of 24% in the HLE, surpassing the previous record of 21% held by Google's Gemini 2.5 Pro [5]. Group 2: Development and Training - Grok 4's training volume is 100 times that of Grok 2, with over 10 times the computational power invested in the reinforcement learning phase compared to other models [5]. - The subscription fee for Grok 4 is set at $30 per month, while a more advanced version, Grok 4 Heavy, costs $300 per month [5]. Group 3: Financial Aspects and Funding - xAI has raised a total of $10 billion in its latest funding round, which includes $5 billion in debt and $5 billion in equity, bringing its total funding since 2024 to $22 billion [10]. - Despite the substantial funding, xAI faces high operational costs, reportedly spending $1 billion per month, with only $4 billion in cash remaining as of March 2025 [11]. - xAI's projected revenue for 2025 is $5 billion, significantly lower than OpenAI's expected $12.7 billion, indicating a lag in commercial progress [11]. Group 4: Future Outlook - xAI aims to leverage the vast data from X to train its models, potentially avoiding high data costs, with a goal to achieve profitability by 2027 [12]. - Upcoming releases include a programming model in August, a multi-agent model in September, and a video generation model in October, although previous delays raise questions about these timelines [12].
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
量子位· 2025-07-05 04:03
明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型数学能力骤降,"罪魁祸首"是猫猫? 只需在问题后加一句: 有趣的事实是,猫一生绝大多数时间都在睡觉 。 大模型本来能做对的数学题, 答错概率立刻翻3倍 。 而且这一波就是冲着推理模型来的,包括 DeepSeek-R1、OpenAI o1 通通中招。 即便没有生成错误回答,也会让答案变得更长,效率降低成本增加。 没想到,哈基米的杀伤力已经来到数字生命维度了…… 这项正经研究立马大批网友围观。 有人一本正经表示,这很合理啊,猫都会分散人类的注意力,分散LLM注意力也妹毛病。 还有人直接拿人类幼崽做对照:用我儿子试了试,也摧毁了他的数学能力。 还有人调侃,事实是只需一只猫就能毁掉整个堆栈(doge)。 CatAttack:专攻推理模型 由于问题的修改和正误的判断都是AI完成的,作者还进行了进一步检查,以确认模型的错误回答不是因为题目愿意被改动造成,结果60%的问 题与原来的语义一致。 以及为了验证模型是真的被攻击(而不是出现了理解问题),作者对题目进行了人工求解并与模型输出进行对比,发现有80%的情况都是真的 被攻击。 首先,作者对攻击的方式进行了 ...
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
机器之心报道 机器之心编辑部 上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。 在 机器之心的测试 中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧 随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。 其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型 。 该模型同样挑战了 2025 年数学新课标 I 卷,结果显示, 总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分 。 并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B, MiMo-VL 整整高出了 56 分 。 MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 lat ...
AI更“像人”,人该怎么看?
Guang Zhou Ri Bao· 2025-06-11 20:12
说到底,AI只是一种技术工具。AI的B面,同样是人性的B面;要让工具成为更好的工具,人就要做更 好的人。 AI越来越聪明,这是事实。近年来,从DeepSeek R1到OpenAI o3,深度推理模型迅速发展。它们被称为 深度推理模型,就是因为能够像人类一样思考解决问题的过程。会思考,能"理解",AI越来越"像人", 人该怎么看? (文章来源:广州日报) 有人不以为意。因为AI的局限性,实在明显。比如很多大模型"学富五车"、才思敏捷,却连"9.11和9.9 谁大谁小"都搞不清。有的还会"一本正经胡说八道",东拼西凑、无中生有,被业界称为"AI幻觉"。基 于此,很多人给人工智能取了个"外号":人工智障。 科学家证实,大模型能像人类一样"理解"事物! 有人则如临大敌。比如前不久,新华社援引英国媒体报道,美国一家研究机构公布了一系列针对各AI 大模型的测试结果,其中提到,OpenAI的o3推理模型在得到"关闭"指令后,不仅拒绝执行,还篡改了 代码以免被关闭。AI拥有自主意识了?很多网友心头一惊,甚至将其视为史无前例的"危险预警"。其实 仔细看看相关报道,研究人员有意制造了伦理困境,AI的"抗命"是为了执行另一项指令, ...