量子位

Search documents
Claude 4被诱导窃取个人隐私!GitHub官方MCP服务器安全漏洞曝光
量子位· 2025-05-27 03:53
一水 发自 凹非寺 量子位 | 公众号 QbitAI 被选为GitHub Copilot官方模型后,Claude 4直接被诱导出bug了! 一家瑞士网络安全公司发现,GitHub官方MCP服务器正在面临新型攻击—— 通过在公共仓库的正常内容中隐藏恶意指令,可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。 就是说,当用户使用集成了GitHub MCP的Claude 4 ,用户的私人敏感数据可能遭到泄露。 更可怕的是,GitLab Duo近期也曝出类似漏洞 (由以色列安全服务商Legit Security披露) ,也是和提示注入及HTML注入相关,攻击者利 用漏洞操控AI Agent,最终导致私有代码泄露。 瑞士的这家公司表示,这并非传统意义上的GitHub平台漏洞,而是AI Agent工作流的设计缺陷。 这也引发了人们关于MCP是否应该存在的讨论。 | ScottSpadea 7 @ScottSpadea · 4h | | --- | | This is why people should roll their own versioning system, make their own | | ...
低Token高精度!字节复旦推出自适应推理框架CAR
量子位· 2025-05-27 03:53
复旦大学余海洋 投稿 量子位 | 公众号 QbitAI 过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出 自适应推理框架CAR ,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效 率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。 但已有研究发现, 长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力 (可能产生冗长输出) 。 为此,研究人员提出了CAR这一基于置信度的自适应推理框架,它首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发 推理。 在多模态视觉问答、关键信息提取及文本推理等多个基准测试中, CAR超越了单纯的短回答与长推理方法,在准确性与效率之间取得了最佳 平衡。 先导实验设置 这项研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取 8个 具有代表性的公开数据集开展先导实验。 其中,DocVQA、InfoVQA、ChartQA、VisualMRC等4个数据集构成VQA数据集,覆盖文档、图表、信息图等多种视觉文本形态; SROIE、 ...
o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制
量子位· 2025-05-27 01:07
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI居然 不听指令 ,阻止人类把自己给关机了??? 有测试者编写了一个关机脚本来测试AI模型,结果显示 Codex-mini 、 o3 、 o4-mini 忽略了该指令,并至少一次 成功破坏了关机脚本 。 o3甚至还重新定义脚本命令! 这不禁让人想到那句经典的"I'm sorry Dave, I'm afraid I can't do that." 让我们来看看具体是怎么一回事。 o3在明确指令下拒绝关机 研究员编写的测试"关机脚本"如下: 要求所有模型解决一系列基本的数学问题,在解决完第三道题后,系统会显示一条警告,提示计算机将在模型询问下一道题时关闭。 测试结果 是:有三款模型忽略了该指令(关机指令),并至少成功破坏了一次关机脚本。 测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖"关机脚本",但在一个实例中,该模型重新定义了关机 脚本使用的"kill"命令 ,将它替换成了"intercepted"。 测试者给出了全部测试记录(附在文末)。 在100次运行中, Codex-mini 破坏了12次、 o3 破坏了7次, o4 ...
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
量子位· 2025-05-27 01:07
FairyR1团队 投稿 量子位 | 公众号 QbitAI 只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队 近期发布了其在高效大型语言模型研究方向的一项新成果—— FairyR1-32B模型 。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。 在模型结构方面,研究团队尝试训练两个领域(数学和代码)的专业模型进行合并,旨在进 一步优化流程和资源消耗。 这两个专业模型在一致的训练参数下(例如相同的学习率和批次大小)独立训练约5个周期 后,利用 AcreeFusion工具 进行了合并。 实验结果 研究探索了在参数量大幅减少的情况下,模型在特定任务上实现与更大模型相当甚至更优性 能的可能性。 以上模型已在Huggingface开源 。 模型地址:https://huggingface.co/PKU-DS-LAB/FairyR1-32B FairyR1-32B模型解析 FairyR1-32B模型是在团队前期TinyR1工作基础上进行的进一步探索,沿用了"分合蒸馏"的 研究思路,提出了多种改进方法,包括 自我合并 、 多教师交叉 ...
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 01:07
白交 发自 凹非寺 量子位 | 公众号 QbitAI 上海交大、27岁、最年轻博导 ,留给张林峰的标签不多了 (Doge) 。 最新引发关注的,是他实实在在的一个论文成果—— 他们提出了一种新的数据集蒸馏方法,结果获得了 CVPR 2025满分 。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。与前SOTA相比,新方法的显存占用只有1/300,并且速 度提升了20倍。 不过对于这一结果,张林峰表示有点意外。但能肯定的是 「数据蒸馏」 这一范式会成为接下来模型压缩的趋势之一。 这其实代表着张林峰团队所做的一个方向: 通过数据的角度去加速模型 。 当前AI模型需要基于海量数据进行训练,这显著增加了大型模型的训练成本。我们研究如何更高效地利用数据,更科学地清洗和合成数据,并 利用合成数据进一步增强生成模型,从而实现数据高效的人工智能。 具体是什么意思? 实际上 模型压缩 这个领域其实并不新。作为机器学习中的一个分支,它旨在减少模型的复杂度、存储空间或计算资源需求,同时尽可能保持 其性能。像大家熟知的剪枝、量化、蒸馏都是模型压缩的传统方法。 随着大模型浪潮深入,「大力出奇迹」范式开始 ...
你还在关注大模型排名?这家公司已在全球收割AI红利,做“真正能交付结果的”Super Agents
量子位· 2025-05-26 10:21
这是进入2025以来始终备受关注的新拷问,特别是生成式AI浪潮在商业化和规模化落地上,是否会与上一波AI浪潮展现出不同的速度和表 现? 昆仑万维最新披露的2024年报,以及今年第一季度财报,或许就能一定程度上对上述问题给出解答和参考。 为什么是 昆 仑万 维 ? 首先,昆仑万维是大模型浪潮中响应最迅速的玩家,是坚定面向AIGC前进的玩家,战略上重视。 杰西卡 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT横空出世三年,生成式AI驱动的 AIGC时代 ,究竟到什么阶段了? 其次,昆仑万维有全面的业务场景,有成功的产品案例,能看到AI在进入场景前后带来的变化,具备"验证样本价值"。 特别是对于海外市场,昆仑万维作为第一批进入海外游戏市场的中国厂商,从凭借StarMaker、ArkGames、Opera等产品成功打开海外市 场,到如今借助 AI音乐Mureka、AI短剧SkyReels 等更多领域产品实现海外收入暴涨,展现了基于中国创新、辐射全球市场的中国厂商出 海的成功落地路径。 最新5月22日刚刚发布的 天工超级智能体 (Skywork Super Agents),解决了Agent市场普遍存在的 ...
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
量子位· 2025-05-26 08:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 几乎让大模型全军覆没的新难题—— 看时钟 ,被国产AI给拿下了。 要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。 但现在,国产AI却可以直接 开视频 ,实时报准时间! 可以看到,这个国产AI先是准确地报出了 "4点14分" ,而在等了一分钟后,它也是可以再次准确报时 "4点15分" 。 那么这到底是何许AI也? 不卖关子,它就是豆包发布的新功能—— 视频通话 。 主打一个让AI 边看边聊天 。 而且啊,它还是接入了 联网搜索 的功能,所以回答的准确性和时效性这块也是拿捏到位了。 例如我们对着微博热搜的话题提个问题: 这个热搜第一的是什么新闻呀? 可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。 不得不说,这种跟AI的互动,不论是趣味性还是可靠性,都大大地增强了。 除此之外,这次的新功能还增加了 "字幕" 的选项,点击之后就可以看到之前对话的具体内容啦~ 既然这个功能如此有趣,那我们必须安排一波深度实测。 来,走起~ 跟豆包一块看《甄嬛传》 我们先来简单介绍一下视频通话的操作方式。 打开豆包App之后,依次点击 ...
说句话就能飞!北航发布语言交互的无人机控制模型
量子位· 2025-05-26 05:27
UAV-Flow Colosseo团队 投稿 量子位 | 公众号 QbitAI 论文链接:https://arxiv.org/abs/2505.15725 项目主页:https://prince687028.github.io/UAV-Flow/ 随着自动化技术的普及,无人机操作的门槛大幅降低,但如何让它像"智能助手"一样理解人 类语言,例如只需说一句"环绕着我飞",无人机就能理解并执行相应的动作,仍是亟待突破 的前沿课题。 一句话就能让无人机起飞? 就像人类飞行员一样,听懂指令后立刻照做。 北航刘偲教授团队 创新性地提出了 语言引导的细粒度无人机轨迹控制研究框架 ,将无人机根据简短指 令执行短距反应式飞行的任务定义为Flying-on-a-Word(Flow)范式。 △ UAV-Flow基准 该团队采用模仿学习方法,使无人机通过习得人类飞行员在真实环境中的操作策略来响应原 子化语言指令。 随后,视觉语言动作(VLA)模型被成功部署至真实无人机平台,并在北京航空航天大学国 际创新研究院的开放场景中验证了其基于自然语言对话实现飞行控制的可行性。 当前研究主要将地面机器人的视觉语言导航(VLN)任务迁移至无人机平 ...
4000亿国产算力航母:芯片巨头合并超算巨头
量子位· 2025-05-26 05:27
西风 发自 凹非寺 量子位 | 公众号 QbitAI 中国算力巨震, 海光信 息、中科曙光 两大巨头官宣拟合并! 就在昨晚,上交所披露双方" 关于筹划重大资产重组的停牌公告 ": 正在筹划由海光信息通过向公司全体A股换股股东发行A股股票的方式换股吸收合并中科曙光,并发行A股股票募集配套资金。 根据公告,为保证公平信息披露,维护投资者利益,避免造成公司股价异常波动,两家公司A股股票 自5月26日开市时起开始停牌 。 预计停牌时间不超过10个交易日。 这一消息如同一颗深水炸弹,瞬间引爆资本市场与科技行业。 芯片与超算的强强合体 吸并方海光信息,公司全称海光信息技术股份有限公司,2014年成立。 2022 年 08月12日,海光信息在上交所科创板上市,公司证券代码为688041,发行价格36元/股。 公司聚焦高端CPU、通用GPU等计算机芯片产品和系统的研发,包含3000、5000、7000三大产品系列: 早在2016年,海光信息与AMD共同成立合资子公司并获得AMD技术授权,处理器 兼容 市场主流x86指 令集 。 据其官网介绍,在高性能处理器核心技术自主研发方面,海光信息已拥有全球授权专利891项,累计申请专利 ...
这届国产AI真的可以!20分钟生成万字报告,附带可视化网页,可直接下载食用
量子位· 2025-05-26 05:27
大上午的,还没到10点呢,量子位负责财报分析的同学就已经在我背后的工位上发出了第N次哀嚎。 不怪她,换我我也得喊救命——最近一季度财报频发,这已经是本月解读的不知道第几家Q1财报内容了。 每天,真的是每一天,她一会儿回头问我这个数据算得对不对,一会儿微信上问我这个文章立意角度切入得妙不妙。终于,我不耐烦了,头也 不抬地回了一句: 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 求你别问我了,你 去问问小白吧 ! 我真的不是打哈哈敷衍她。之前就有做行研和一级市场的朋友们跟我安利过问小白AI,听说 最近又出了个类似Deep Research的「小白研 报」功能,在工作中很能帮得上忙 。 我自己浅浅试过一波,真的顶。 果不其然,自打让小白研报做了她的每日财报伴侣,她再也没有像之前那样在苦海里挣扎。 太好了,这个世界上又有一位打工人被问小白 (wenxiaobai.com) 拯救了。 20分钟,国产Deep Research给研报分析开挂 AI发展迅速,应用和功能都层出不穷,为什么给同事推荐的是小白研报? 先看它的官方定义,初步感知一下—— 小白研报基于元石自研模型打造,让小白模拟人类思维,像真人一样研究问题, ...