推理

Search documents
一张照片、一句简单提示词,就被ChatGPT人肉开盒,深度解析o3隐私漏洞
机器之心· 2025-05-09 09:02
论文链接:https://arxiv.org/abs/2504.19373 案例直击:AI 如何从照片中 "挖" 出你的坐标? 用户提示词示例: 一作为罗威迪(俄亥俄州立大学本科生,佐治亚大学未来博士生,在 COLM 和 ACL 系列顶级会议中发表多篇文章),以及来自威斯康星大学麦迪逊分校的本科 生张起明和陆天宇。 一张普通的生活照,可能成为 AI 破解你隐私的钥匙 —— 这不是科幻情节,而是最新研究揭示的残酷现实。OpenAI 的多模态大模型 ChatGPT o3,竟能通过照片中 微不可察的线索,将你的住址锁定在 1 英里范围内。 近日,来自威斯康星大学麦迪逊分校教授肖超玮(Chaowei Xiao)主导并联合佐治亚大学教授向臻(Zhen Xiang), 南加州大学教授赵越(Yue Zhao)团队完成的一 项新研究,揭示了自主多模态大语言推理模型严重的隐私泄露风险 —— 图片地理位置定位。 论文标题:Doxing via the Lens: Revealing Privacy Leakage in Image Geolocation for Agentic Multi-Modal Large Reasoni ...
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
Hu Xiu· 2025-05-08 11:50
5月8日,在海淀大恒科技中心的阶跃星辰北京办公地,阶跃星辰创始人、CEO姜大昕身着深色西服、蓝 色衬衫出现在阶跃星辰北京办公地的会议室里。他保持了一贯的风格,如二十一年前在新加坡南洋理工 教书时,像老师一样在屏幕前平静地讲述自己对于多模态模型行业的判断。这里距离姜大昕上一个东家 微软的中国办公地微软大厦仅有504米,在2023年创立阶跃星辰前,姜大昕是微软全球副总裁。 "多模态模型领域目前还没有出现GPT-4时刻。卡点是整个行业缺少多模态领域的理解生成一体化架 构。有了这个架构,才能基于此通过海量的图片视频去做预训练+指令跟随,最终演变为世界模 型。"姜大昕说。 "理解生成一体化架构"不只是姜大昕的技术判断,也正在影响这家公司的走向。 虎嗅独家获悉,近期阶跃星辰内部,进行了算法小组内的微调:原本阶跃星辰内部团队分为生成小组和 理解小组,而这两个小组已经整合为新的"生成理解"团队。 姜大昕向虎嗅表示,这一调整,确实是基于"理解生成一体化架构至关重要"这个判断。 虎嗅获悉,目前阶跃星辰的运转以三个男人为核心: 姜大昕 阶跃星辰创始人、CEO 负责公司整体战略、技术研发 张祥雨 阶跃星辰首席科学家 负责公司技术研发 ...
微软开源 Phi-4 推理模型:啰嗦AI,反卷出圈
3 6 Ke· 2025-05-08 09:15
AI圈子最有意思的事,已经不是"谁家模型参数最多",而是——谁家小模型,能把大模型打趴下。 最近,微软研究院开源了一款"小而强"的研究:Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。 14B参数,不到DeepSeek 70B的五分之一,但数学、科学、代码、逻辑推理的表现,都比较能打。 在AIME 2025数学考试上,14B的小模型,第一次尝试的全题正确率,居然干过了70B的精炼大块头,甚至快摸到DeepSeek 671B的脚后跟。 微软团队用一串"推理链"打破了常规,让AI学会慢下来、啰嗦一点、反复琢 磨、允许自己犯错,主要体现在: 推理链(Chain-of-Thought)成为核心训练目标 。不是像传统大模型那样直接给出答案,而是专门训练模型写"推理过程";在训练数据和输出里,强制要 求模型用...标签,把自己的思考、分步推理、反复验证详细写出来。这种推理链往往很"啰嗦":不是一句话解决问题,而是像人类一样, 细致分解、逐步排查。 鼓励"慢思考",奖励啰嗦的推理过程。 在RL(强化学习)阶段,奖励机制被专门设计成:答错时鼓励更长推理链,答对时鼓励简洁;只要模型没 ...
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 09:33
FormalMATH团队 投稿 量子位 | 公众号 QbitAI 最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出 FormalMATH形式化数学推理基准测试 ,含 5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域。 形式化数学推理是人工智能领域公认的核心难题之一。 尽管大语言模型(LLM)在自然语言处理和代码生成等领域取得显著进展,但面对需要严格逻辑推导的数学定理证明任务时,其能力仍面临严 峻挑战。 FormalMATH:「超大规模」的形式化数学推理基准 规模突破:22.8倍于现有基准 FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖代数、数论、微积分、离散数学等12个子领域,问题难度从国际数学奥林 匹克(IMO)竞赛级延伸至本科课程,规模是经典基准MiniF2F的22.8倍。 构建创新:人类在循环中的自动化流程用于自动形式化和语义一致性检测 为解决传统形式化数据依赖专家手动标注的瓶颈,研究团队提出了一套 「三阶段过滤」 框架: 现有LLM证 ...
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 07:37
当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性, 提升大模型的逻辑推理能 力 成为解决幻觉问题的关键途径。 为推进大语言模型的逻辑推理能力研究,来自 北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校 的研究人员全面调研了 该领域最前沿的研究方法和评测基准,联合发布了调研综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,针对两个关键科学问题 —— 逻辑问答和逻辑一致性 ,对现有方法进行归纳整理并探讨了未来研究方向。 该综述论文已被 IJCAI 2025 Survey Track 接收,并且作者团队将于 IJCAI 2025 现场围绕同一主题进行 Tutorial 演讲,全面探讨该研究领域的挑战、方法与机遇。 论文标题:Empowering LLMs with Logical Reasoning: A Comprehensive Survey 论文链接:https://arxiv.org/abs/2502. ...
AI Agent:算力需求空间?
2025-05-06 02:28
• Agent 与 Chatbot 不同,Agent 任务复杂度高,交互量大,所需 TOKEN 量远高于 Chatbot,对存储和内存要求更高,影响因素包括任务复杂度、 多模态处理、用户量等。 • 优化模型访问和推理方法包括使用低精度计算、模型蒸馏,以及硬件优化 如 KV 缓存优化,Salesforce 等公司 Agent 产品通常采用百亿参数规模模 型。 展。 综上所述,AI Agent 对算力的需求不仅包括新应用开发,还包括大量老 业务改造,这部分需求容易被忽略但实际非常重要。 如何拆解训练与推理环节中的具体算力需求? AI Agent:算力需求空间?20250505 摘要 • AI 应用逐渐渗透,算力推理需求快速增长,大厂改造现有业务而非开发全 新 APP,导致被忽略的算力需求非常重要,微软、谷歌等公司推理需求占 比可能达 60%-70%。 • 训练环节市场预期悲观,但实际情况可能更好,预训练边际效应减缓,后 训练增速不明显,细分领域仍有增长潜力,需关注 AI Agent 等潜在领域 价值。 • 算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲 观,但 AI 应用领域表现强劲,如 Pal ...
计算机行业重大事项点评:DeepSeek-Prover-V2发布,专注数学推理
Huachuang Securities· 2025-05-04 09:28
证 券 研 究 报 告 计算机行业重大事项点评 DeepSeek-Prover-V2 发布,专注数学推理 事项: 4 月 30 日,DeepSeek 在 Hugging Face 发布了 DeepSeek-Prover-V2-671B 新模 型和 DeepSeek-Prover-V2-7B 增强模型,以及 DeepSeek-ProverBench 数据集, 随后在 GitHub 等平台上公布了论文信息。 评论: 行业研究 计算机 2025 年 05 月 04 日 推荐(维持) 华创证券研究所 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 证券分析师:祝小茜 邮箱:zhuxiaoqian@hcyjs.com 执业编号:S0360524070011 行业基本数据 | | | 占比% | | --- | --- | --- | | 股票家数(只) | 336 | 0.04 | | 总市值(亿元) | 42,657.40 | 4.41 | | 流通市值(亿元) | 36,398.85 | 4.74 | 相对指数表现 | % | 1M | 6M | 12M ...
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 08:51
4 月 30 日,DeepSeek在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模 型。 这是一款专注于形式化数学推理的开源大型语言模型。 数学推理长期以来被视为AI的"终极挑战"之一。形式化数学不仅是AI的"智力试金石",更是打开高价值商业场 景的钥匙。DeepSeek-Prover系列模型通过结合LLM的泛化能力与形式化工具(如Lean),首次实现了从自 然语言描述到机器可验证证明的大规模端到端转化。这一突破不仅可能将数学研究效率提升数倍,更将为AI在 金融建模、芯片验证、密码学等依赖数学严谨性的领域打开新可能性。 5月9日,DeepSeek前成员辛华剑,也将参加剑桥大学中国人工智能协会、锦秋基金、清华大学学生通用人工 智能协会、清华大学学生创业协会合作的"大模型开发者与AI基金合伙人的跨洋对谈活动"。他将进行《大语言 模型时代的形式化数学革命》的主题分享。 辛华剑现在是爱丁堡大学人工智能博士生、字节跳动研究实习生,专注于大语言模型在数学定理证明中的创新 应用。他在DeepSeek实习期间主导开发了专注于数学证明DeepSeek-Prove ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...
阿里Qwen3大模型登顶开源冠军,中国AI应用即将迎来大爆发?
Sou Hu Cai Jing· 2025-05-01 18:34
Core Insights - Alibaba has officially launched the Qwen3 model, marking a significant breakthrough in the field of artificial intelligence, which has generated considerable excitement in the global tech community [3] - Qwen3 is noted for its exceptional efficiency and significantly reduced costs, being one-third the size of comparable models while outperforming top global models [3][20] - The model integrates "fast thinking" and "slow thinking" capabilities, allowing it to respond quickly to simple queries while engaging in deeper reasoning for complex problems, thus optimizing computational resource usage [3][21] Model Features - Qwen3 features a unique hybrid reasoning capability that allows it to switch between thinking and non-thinking modes to meet various scenario demands [20] - The model has shown significant improvements in reasoning abilities across mathematics, code generation, and common-sense logic, enhancing user interaction experiences [20] - Qwen3 supports 119 languages and dialects, greatly expanding its application range and accessibility for global developers and enterprises [20][38] Performance Metrics - In the AIME25 assessment, Qwen3 achieved a score of 81.5, setting a new record for open-source models [20] - The model surpassed 70 points in the LiveCodeBench evaluation, outperforming Grok3, and achieved a score of 95.6 in the ArenaHard assessment, exceeding OpenAI-o1 and DeepSeek-R1 [20][27] - Qwen3's performance is further highlighted by its ability to achieve high scores in various assessments, demonstrating its competitive edge in the AI landscape [27] Deployment and Adaptation - Following the open-source release of Qwen3, major chip manufacturers like NVIDIA, MediaTek, and AMD have successfully adapted the model for their systems [28][32] - Huawei announced support for the full series of Qwen3 models, enabling developers to utilize the model seamlessly in their applications [28][31] - The deployment cost has been significantly lowered, with only four H20 GPUs required to deploy the flagship version of Qwen3, making it more accessible for businesses [24] Model Variants - Qwen3 includes eight open-source models, featuring two MoE models (30B and 235B) and six dense models with varying parameter sizes, optimized for different application scenarios [24][25] - The 30B MoE model offers over ten times the performance leverage, while the dense models achieve high performance with reduced parameter counts [24][25] - Each model variant is tailored for specific use cases, from mobile applications to enterprise-level deployments, enhancing the versatility of Qwen3 [25] Open Source and Community Impact - Qwen3 is released under the Apache 2.0 license, allowing global developers and research institutions to freely download and commercialize the models [33] - The model's open-source nature is expected to accelerate the adoption of advanced AI technologies across various sectors, particularly in mobile, smart devices, and robotics [25][33] - The extensive language support and the ability to cater to diverse regional needs position Qwen3 as a leading choice for AI applications worldwide [36][38]