Workflow
推理模型
icon
Search documents
Claude 4发布!AI编程新基准、连续编码7小时,混合模型、上下文能力大突破
Founder Park· 2025-05-23 01:42
文章转载自「新智元」。 今天凌晨的 Anthropic 开发者大会上,Claude 4 登场。 CEO Dario Amodei亲自上阵,携Claude Opus 4和 Claude Sonnet 4亮相,再次将编码、高级推理和AI智能体,推向全新的标 准。 其中,Claude Opus 4是全球顶尖的编码模型,擅长复杂、长时间运行的任务,在AI智能体工作流方面性能极为出色。 而Claude Sonnet 4,则是对Sonnet 3.7 的重大升级,编码和推理能力都更出色,还能更精准地响应指令。 同时,Claude把这段时间积攒的一系列产品,通通一口气发布了—— Claude Opus 4和Sonnet 4混合模型的两种模式 :几乎即时的响应和用于更深度推理的扩展思考。 扩展思考与工具使用(测试版) :两款模型均可在扩展思考过程中使用工具(例如网络搜索),使Claude能在推理与工具使 用间灵活切换,从而优化响应质量。 新的模型能力 :两款模型均可并行使用工具,更精确地遵循指令,并且(当开发者授予其访问本地文件的权限时)展现出显 著增强的记忆能力,能提取、保存关键信息,以保持连续性,并随时间积累隐性知识。 C ...
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
AI前线· 2025-05-22 19:57
该系列模型下共有两个型号:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设 定新的标准。 作者 | 冬梅 Claude 4 系列模型发布,编码、推理能力更上一步 昨天夜里,在 Anthropic 的首届开发者大会上,Anthropic CEO Dario Amodei 宣布 Claude 4 正式发 布。 | | | | SIMULE T NUTHINI NJ | | | | | --- | --- | --- | --- | --- | --- | --- | | | Claude Opus 4 | Claude Sonnet 4 | Claude Sonnet 3.7 | OpenAl o3 | OpenAl GPT-4.1 | Gemini 2.5 Pro Preview (05-06) | | Agentic coding SWE-bench Verified15 | 72.5% / 79.4% | 72.7% / 80.2% | 62.3% / 70.3% | 69.1% | 54.6% | 63.2% | | Agentic terminal cod ...
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 12:34
金磊 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI "我们已经过渡到了可以进行复杂推理的下一个模型范式。" OpenAI CEO奥特曼在年度总结中,给出了他关于大模型未来发展的论断。 推理模型的重要性正在上升,成为了继基础模型之后各家厂商厮杀的新战场。 推理模型百家争鸣,究竟 哪家能力 更强?最近,这个问题有了答案。 近期, 中国信息通讯研究院 (信通院)发布了一项最新的大模型推理能力评估成绩,结果显示—— 文心X1 Turbo 在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前 最高级"4+级" 。 而且还是国内首款,也是唯一通过该测评的大模型。 为什么文心能够入围"4+级"? 在百度刚刚举办的 AI Day 活动中, 百度集团副总裁吴甜 深入浅出地对其最新大模型,从模型、数据、应用等诸多方面做了深度解析和科 普,我们也与 她进行了一番对话 。 不妨从中来挖掘这个问题的答案。 △ 百度集团副总裁,吴甜 多模态融合,模仿人类思考 演讲中,吴甜介绍了文心大模型最新进展,也就是其在上个月发布的 文心4.5 Turbo 和 文心X1 Turbo : 两个新模型的核心亮点,也代表了文心 ...
一张照片、一句简单提示词,就被ChatGPT人肉开盒,深度解析o3隐私漏洞
机器之心· 2025-05-09 09:02
论文链接:https://arxiv.org/abs/2504.19373 案例直击:AI 如何从照片中 "挖" 出你的坐标? 用户提示词示例: 一作为罗威迪(俄亥俄州立大学本科生,佐治亚大学未来博士生,在 COLM 和 ACL 系列顶级会议中发表多篇文章),以及来自威斯康星大学麦迪逊分校的本科 生张起明和陆天宇。 一张普通的生活照,可能成为 AI 破解你隐私的钥匙 —— 这不是科幻情节,而是最新研究揭示的残酷现实。OpenAI 的多模态大模型 ChatGPT o3,竟能通过照片中 微不可察的线索,将你的住址锁定在 1 英里范围内。 近日,来自威斯康星大学麦迪逊分校教授肖超玮(Chaowei Xiao)主导并联合佐治亚大学教授向臻(Zhen Xiang), 南加州大学教授赵越(Yue Zhao)团队完成的一 项新研究,揭示了自主多模态大语言推理模型严重的隐私泄露风险 —— 图片地理位置定位。 论文标题:Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoni ...
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
Hu Xiu· 2025-05-08 11:50
5月8日,在海淀大恒科技中心的阶跃星辰北京办公地,阶跃星辰创始人、CEO姜大昕身着深色西服、蓝 色衬衫出现在阶跃星辰北京办公地的会议室里。他保持了一贯的风格,如二十一年前在新加坡南洋理工 教书时,像老师一样在屏幕前平静地讲述自己对于多模态模型行业的判断。这里距离姜大昕上一个东家 微软的中国办公地微软大厦仅有504米,在2023年创立阶跃星辰前,姜大昕是微软全球副总裁。 "多模态模型领域目前还没有出现GPT-4时刻。卡点是整个行业缺少多模态领域的理解生成一体化架 构。有了这个架构,才能基于此通过海量的图片视频去做预训练+指令跟随,最终演变为世界模 型。"姜大昕说。 "理解生成一体化架构"不只是姜大昕的技术判断,也正在影响这家公司的走向。 虎嗅独家获悉,近期阶跃星辰内部,进行了算法小组内的微调:原本阶跃星辰内部团队分为生成小组和 理解小组,而这两个小组已经整合为新的"生成理解"团队。 姜大昕向虎嗅表示,这一调整,确实是基于"理解生成一体化架构至关重要"这个判断。 虎嗅获悉,目前阶跃星辰的运转以三个男人为核心: 姜大昕 阶跃星辰创始人、CEO 负责公司整体战略、技术研发 张祥雨 阶跃星辰首席科学家 负责公司技术研发 ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...
阿里Qwen3大模型登顶开源冠军,中国AI应用即将迎来大爆发?
Sou Hu Cai Jing· 2025-05-01 18:34
人工智能领域又一重大突破! 4月29日,阿里巴巴正式发布新一代通义千问模型——Qwen3(以下称"千问3"),这一发布在全球科技圈引发震动。 千问3的最大亮点在于其卓越的效率与显著降低的成本。据悉,千问3的模型大小仅为相近性能模型的三分之一,但其性能却全面超越了包括R1和OpenAI- o1在内的全球顶尖模型,登顶全球最强开源模型。 值得强调的是,千问3是国内首个"混合推理模型",将"快思考"与"慢思考"有效整合于同一模型中。通俗来说,对于简单问题,千问3能够以低算力实 现"秒回";而面对复杂问题,则能通过多步骤的深度思考,显著节省算力消耗。这一设计实现了推理机制与最低成本之间的最佳平衡。 据悉,千问3开源后,上下游供应链连夜进行适配和调用,NVIDIA、联发科、AMD等多家头部芯片厂商已成功适配千问3。在阿里通义千问模型千问3模 型开源数小时后,华为官方宣布昇腾支持千问3全系列模型部署,开发者在MindSpeed和MindIE中开箱即用,实现千问3的0Day适配。 对此,数据猿第一时间对千问3在数学、代码生成、文字创意上进行了几道简单的实测,先是输入了一道2024年高考数学题。 提问后,页面会显示此次思考所 ...
全球最强开源AI大模型诞生:中国研发,成本只有Deepseek的30%
Xin Lang Cai Jing· 2025-04-30 11:28
众所周知, 自从OpenAI的ChatGPT发布之后,全球就进入了千模大战。 而自从Deeseek推出之后,这些大模型们,又掀起了开源高潮,因为大家发现,开源的大模型,更能够 得到大家的使用。 但与此同时,在AI大模型方面,也有两个方向,一个就是OpenAI们,那就是大力出奇迹,狂堆GPU 卡,用算力来堆出高性能AI。 毕竟像OpenAI、马斯克的AI们,它们又有钱,又能买到最强的GPU卡,没必要没苦硬吃,堆显卡就是 了。 而另外一个方向,则是像Deepseek一样,钱不多,且显卡也受限,只有"四两拨千斤",用最少的显卡, 办最大的事,做出最强的性能。 所以Deepseek打的华尔街是溃不成军,因为用的显卡少,性能却最强。 自从Deepseek推出,国内就进行了一大波的国产GPU替代,因为大家发现不需要英伟达最强大的显卡, 也可以部署强大的模型,一度打破了OpenAI的神话,也打破了英伟达的算力泡沫。 但近日,又产一国产大模型,甩出了王炸,因为它的成本更低,但性能却超过了OpenAI-o1模型,也超 过了Deepseek-R1等,登顶全球第一。 这个模型,就是阿里通义千问大模型 Qwen3(简称千问 3),并 ...
国产六大推理模型激战OpenAI?
创业邦· 2025-04-30 10:09
以下文章来源于光子星球 ,作者郝鑫 来源丨光 子星球(ID:TMTweb) 作者丨郝鑫 光子星球 . 细微之处,看见未来 编辑丨王潘 图源丨Midjourney "DeepSeek-R1如同当年苏联抢发的第一颗卫星,成为AI开启新时代的斯普特尼克时刻。" 2025年春节前,DeepSeek比除夕那天的烟花先一步在世界上空绽放。 离年夜饭仅剩几个小时,国内某家云服务器的工程师突然被拉入工作群,接到紧急任务,要求其快速调 优芯片,以适配最新的DeepSeek-R1模型。该工程师告诉我们,"从接入到完成,整个过程不到一周"。 大年初二,一家从事Agent To B业务的厂商负责人电话被打爆,客户的要求简单粗暴:第一时间验证模型 真实性能,尽快把部署提上日程。 节前大模型,节后只有DeepSeek。DeepSeek-R1就像一道分水岭,重新书写了中国大模型的叙事逻辑。 以2022年11月,OpenAI发布基于GPT-3.5的ChatGPT应用为起点,国内自此走上了追赶OpenAI的道路。 2023年,大模型如雨后春笋般冒出头,无大模型不AI,各厂商你追我赶,百模大战初见端倪。 你方唱罢我登场,2024年的主人公变成了 ...
华为昇腾全系列支持Qwen3
news flash· 2025-04-29 10:31
4月29日,在阿里通义千问模型Qwen3(简称千问3)模型开源数小时后,华为计算官方宣布昇腾支持千问 3全系列模型部署,开发者在MindSpeed和MindIE中开箱即用,实现千问3的0Day适配。千问3是国内首 个"混合推理模型","快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂 问题可多步骤"深度思考",大大节省算力消耗。(上证报) ...