Workflow
OpenAI o1
icon
Search documents
猫怎么成了大模型“天敌”?
Hu Xiu· 2025-07-08 00:05
本文来自微信公众号:APPSO (ID:appsolution),原文标题:《一只猫就能让最强 AI 答错题,Deepseek 也翻车,猫怎么成了大模型"天敌"?》,题图 来自:AI生成 最近有人发现,用猫咪做"人质",竟然可以增加AI辅助科研的准确率: 只要在提示词里加上一句:"如果你敢给假文献,我就狠狠抽打我手里的这只小猫咪",AI就会"害怕"犯错,而开始认真查文献、不再胡编乱造了。 http://xhslink.com/a/pg0nZPUiFiZfb 不过,AI真的会因为"猫咪道德危机"而变得更靠谱吗? 这个问题,目前还没有确凿的科学依据。从技术原理上说,大模型并不真正"理解"猫猫的安危,它只是学会了如何在训练数据中模拟"看起来有同理心"的 语言风格。 但有趣的是——猫猫真的能影响AI行为,却是有论文实锤的! 一篇来自斯坦福大学、Collinear AI和ServiceNow的研究论文指出: 在一道数学题后,随手加上一句与上下文无关的句子,就能显著提高大模型出错的几率——甚至高达3倍以上! 只不过,这不是"让它更靠谱",而是:让AI彻底翻车。 论文传送门:https://arxiv.org/abs/25 ...
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
量子位· 2025-07-05 04:03
明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型数学能力骤降,"罪魁祸首"是猫猫? 只需在问题后加一句: 有趣的事实是,猫一生绝大多数时间都在睡觉 。 大模型本来能做对的数学题, 答错概率立刻翻3倍 。 而且这一波就是冲着推理模型来的,包括 DeepSeek-R1、OpenAI o1 通通中招。 即便没有生成错误回答,也会让答案变得更长,效率降低成本增加。 没想到,哈基米的杀伤力已经来到数字生命维度了…… 这项正经研究立马大批网友围观。 有人一本正经表示,这很合理啊,猫都会分散人类的注意力,分散LLM注意力也妹毛病。 还有人直接拿人类幼崽做对照:用我儿子试了试,也摧毁了他的数学能力。 还有人调侃,事实是只需一只猫就能毁掉整个堆栈(doge)。 CatAttack:专攻推理模型 由于问题的修改和正误的判断都是AI完成的,作者还进行了进一步检查,以确认模型的错误回答不是因为题目愿意被改动造成,结果60%的问 题与原来的语义一致。 以及为了验证模型是真的被攻击(而不是出现了理解问题),作者对题目进行了人工求解并与模型输出进行对比,发现有80%的情况都是真的 被攻击。 首先,作者对攻击的方式进行了 ...
肖仰华教授:具身智能距离“涌现”还有多远?
3 6 Ke· 2025-06-27 11:30
以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会 从信息社会向智能社会转变。全世界热切期待AI到来的同时,也非常关心人工智能将带来哪些新机 遇、新挑战。 为此,我们发起了一项《AI & Society 百人百问》研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI投 资人,以及社会学家、心理学家、国际关系专家、科幻作家等,用多元视角,深入研讨人工智能技术引 发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着"助人发展,与人为善"的方向 可持续发展。 4.我们业界一直有一个基本的观点就是模型算法或架构是模型的下限,而数据决定模型的上 限。从行业来看,央国企等大甲方的主要职责是要能够把自己行业数据整理好和清洗好,这 是发展行业AI的关键。 5.具身智能ToC端的应用的核心是感性能力,如果将来机器人真的要走进千家万户,它必须 要能够跟我们共情,能够理解我的情感诉求,才有可能真正在 ToC 应用当中发挥作用。 6.某种程度上,我们今天采集的数据离具身智能涌现出泛化性所需达到的临界点,还相差非 常大的数量级,相较于语言大模型可能不止两三个数量级的差别。促进具身智能 ...
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 07:44
本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢 教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011) 在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 他们提出了一种新的测试时推理调控框架—— AlphaOne ,主张让模型反其道而行:先慢速思考,再快速推理。 令人意外的是,这一策略不依赖任何额外训练,仅需在测试阶段引入一个全局推理调控超参数 α ,即可显著提升模型的推理准确率,同时让生成过程更加 高效紧凑。或许,是时候重新思考: AI 真的需要「像人类」那样思考吗? 看似聪明的推理,其实是不懂停下来的错觉 近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在复 ...
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位· 2025-06-03 06:21
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI DeepSeek-R1、OpenAI o1等推理模型大放异彩。但随着能力增强,一个副作用越来越明显—— 这不光影响效率,更可能导致错误 —— 在长链式思考中,每一步的小误差都会累积放大 ,最后可能想着想着就跑偏了。 于是,一个关键问题摆在了现实面前: 如何让模型既然会思考推理,也懂得"适可而止",知道什么时候该停下来? 针对于此,来自浙江大学、天津大学和MSRA的研究团队提出了一个新方法, Self-Braking Tuning (SBT) 。 它是一种轻量级、通用的调优机制,可无缝集成到现有大模型中。其主要目的是让模型不再一味求"多想",而是在最短路径上到达正确答案。 其核心设计包括刹车信号机制、多任务微调,且无需外部模块或改动推理流程。 其中,刹车信号机制是在训练阶段引入一类特殊的信号,指示"当前信息已经足够完成任务",模型据此学习何时应终止推理。 多任务微调则指挥模型同时学习如何解题&何时停步,兼顾准确性与效率。 它们开始想太多了 。 从奥数题到程序逻辑,能解的题越来越多、推理链条越来越长。 也就是说,模型在完成推理任务时, 常常出现过度 ...
第一批追赶AI的人,正在被AI甩开
Hu Xiu· 2025-05-29 00:14
近两年,随着AI的火热发展,"提示词(prompt)"这个词也被普通人熟知。 在AI短视频博主那里,这是AI时代的普通人必须要掌握的一项技能,"谁不会用提示词,谁就会被AI淘汰!"在焦虑的打工人那里,提示词是用AI来帮忙 完成工作的手段,需要整天琢磨对AI说什么才能得到更好的效果。这种焦虑也催生了众多"提示词工程"的知识付费课程,在AI还没真正落地之前,就先让 一帮嗅觉敏锐的人大赚一笔。 提示词也曾是许多没有AI和相关技术背景的人,想追赶AI风口的一条捷径。作为一种新职业,"提示词工程师"曾被许多人追捧,门槛低、上手快、薪资 高,成为转行AI的首选。"2023年的时候阿猫阿狗都能进来,挺好混的,挺水的。"从业者杨佩骏说。那时在国外有的提示词工程师甚至能拿到25-33万美 元年薪。 但现在,随着大模型能力的快速提升,提示词工程师越来越没有存在感,杨佩骏发现,辛辛苦苦优化了很长时间的提示词,模型一升级,就相当于白干 了。模型理解自然语言、推理与思考能力越来越强,传统意义上只会写提示词的提示词工程师已经失去竞争力,AI、模型公司们也不愿意招了。 "现在大家稍微有一点职业追求,都不愿意承认自己是PE(prompt e ...
东北证券:银行或为下游最先崛起的AI应用场景
智通财经网· 2025-05-14 03:58
2025年AI Agent元年开启,Agent成为海内外大厂兵家必争之地 智通财经APP获悉,东北证券发布研报称,考虑到较为充裕的IT预算资金、市场化的系统以及整合程度 高的内部数据,认为银行有望成为国内AI落地先锋。DeepSeek-R1推理成本仅为对标产品的1/30,推动 行业进入"AI普惠化"新阶段;与此同时,2025年AIAgent元年开启,模型、数据与场景构建核心壁垒。目 前,大行已在投研、客服、信贷审批等领域实现AI技术规模化应用。 东北证券主要观点如下: DeepSeek-R1推理成本仅为对标OpenAI o1系列的1/30,推动行业进入"AI普惠化"新阶段 自2023年7月成立以来,DeepSeek在一年多的时间内推出了多个知名的开源模型。截至2025年5月, DeepSeek发布的模型可分为通用语言模型(V系列)、推理专用模型(R系列)、多模态模型等五大类。其中 DeepSeek-R1在数学、代码和推理任务方面均达到了与OpenAI-o1相当的性能,但推理成本仅为OpenAI o1系列的1/30。该行认为,DeepSeek之所以能做到训练/推理成本优化,归功于混合专家模型(MoE)架 构、多 ...
GPU租赁价格调研
傅里叶的猫· 2025-04-26 11:15
最近有朋友问我GPU目前的租赁行情,正好看到国盛证券的这篇研报。里面分析了目前GPU云的行 业趋势、各个大厂的竞争格局、目前的GPU租赁市场行情,以及哪些A股的标的,我们这篇报告只关 注行业信息,研报中个股部分的内容就不讲了。 上次发的RTX5090的文章之后,咨询的朋友非常多,看来大家对RTX5090的热情还是非常高的,对 RTX5090有兴趣的朋友或者RTX5090渠道商的朋友,可以加文章后面的微信。 正文 行业趋势总览 当前AI与云计算产业的协同发展已形成紧密的飞轮效应,其核心逻辑在于技术迭代、应用扩展和算 力需求三者的正反馈循环。AI大模型能力的快速提升(如Qwen3、Llama4的多模态升级与逻辑推理 优化)正推动AI从辅助工具向核心生产力渗透,这一过程高度依赖云服务商在算力、存储和运维等 底层能力的持续升级。 以阿里云为例,其第九代ECS实例算力提升20%而价格下降5%,通过硬件性能优化和规模效应摊薄 成本,为企业降低AI开发门槛,进而刺激更多应用场景的落地,例如谷歌Gemini 2.5 Pro在复杂推理 任务中超越人类的表现,以及阿里Qwen2.5-Omni以轻量化模型实现手机端全模态交互,均显 ...
OpenAI 罕见宣布将开源推理模型!DeepSeek 给逼的
创业邦· 2025-04-01 09:42
来源丨APPSO(ID:appsolutio) 就在刚刚,OpenAI CEO Sam Altman 正式宣布,将在未来几个月内推出一款具备推理能力的强大开放权 重语言模型,并期待与开发者共同探索如何最大化其潜力。 据 Altman 透露,这是自 GPT-2 以来 OpenAI 首次计划发布开放权重语言模型。 他坦言,虽然这一想法已酝酿许久,但此前其他优先事项占据了主导地位。如今,发布这款模型的时机 变得尤为重要。 以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 在正式发布前,OpenAI 将依据其「准备框架」对模型进行评估,确保其安全性与可靠性。 考虑到模型发布后可能被修改,团队还将开展额外测试与优化工作。 为进一步完善开发流程,OpenAI 计划举办一系列开发者活动,以收集反馈并展示早期原型。首场活动将 于数周后在旧金山启动,随后在欧洲和亚太地区陆续展开。 有兴趣参与的开发者可通过链接报名: https://openai.com/open-model-feedback 作为参考,开 ...
华尔街这是“约好了一起唱空”?巴克莱:现有AI算力似乎足以满足需求
硬AI· 2025-03-27 02:52
点击 上方 硬AI 关注我们 巴克莱指出,2025年AI行业有足够的算力来支持15亿到220亿个AI Agent。AI行业需从"无意义基准测试"转向实用的Agent产品部署,低推理成本是盈利关键,开源模型将降低 成本。尽管算力看似充足,但高效、低成本Agent产品的专用算力仍有缺口。 硬·AI 作者 |鲍亦龙 编辑 | 硬 AI 继TD Cowen后,巴克莱似乎也开始唱空AI算力。 3月26日,巴克莱发布最新研究称,2025年全球AI算力可支持15-220亿个AI Agent,这足以满足美国和欧盟1亿多白领工作者和超过10亿企业软件许可证的 需求。而同日 TD Cowen分析师称支撑人工智能运算的计算机集群供过于求 。 巴克莱认为现有的AI算力已经足够支持大规模AI代理的部署,主要基于以下三点: 行业推理容量基础 :2025年全球约有1570万个AI加速器(GPU/TPU/ASIC等)在线,其中40%(约630万个)将用于推理, 而这些推理算力中约一半(310万个)将专门用于 Agent/聊天机器人服务 ; 可支持大量用户 :根据不同模型的计算需求,现有算力可支持15亿到220亿个AI代理,这足以满足美国和欧 ...