Workflow
量子位
icon
Search documents
大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了
量子位· 2025-05-03 04:05
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》! 谷歌CEO劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像: 大模型这一小步,把网友们也整嗨了。 直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro足足思考了40多秒,消耗 76011 个token,才开启下一步的 行动规划。 这回,Gemini的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge) 要知道,一年前的旧模Claude 3.5还只能勉强走出新手村到达常磐森林,2个月前,Claude 3.7倒是终于能击败道馆主了,但也并未通关宝可 梦。 Gemini 2.5 Pro通关宝可梦 游戏已通关,但直播仍继续。 画面是酱婶的: 满屏画风皆是:泰!酷!辣! 有一说一,过程看上去是有那么点无聊,因为每动一步Gemini都要深思熟虑…… 左边的文本框里显示了Gemini每个行动背后的详细思考过程。 在上面这个片段中,Gemini的主要目标是探索华蓝洞穴,寻找和捕获超梦。 (因为有点迷路,Gemini后面还想了很久很久……) ...
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 04:05
于恩 投稿 量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的 纯多模态开源LLM 来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 (PR1) ,在视觉推理中最基础的感知层面,探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的 纯视觉 (计数,通用目标检测) 以及 视觉语言 (grounding,OCR) 任务,实验结果展现出在模型感知策略上 的巨大潜力。 然而,在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色,但它们 在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只 猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。 强化学习的崛起与Perception-R1的诞生 强化学习 (Reinforcement Learning, RL) 引发了语言模型的范式转变。像RLHF (来自人 ...
68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
量子位· 2025-05-02 04:36
大模型竞技场的可信度,再次被锤。 最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。 它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。比如: 大神卡帕西也站出来表示,他个人也察觉出了一些异样。 有一段时间,Claude-3.5是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 对于最新质疑,大模型竞技场官方Lmrena.ai已经给出回应: 少数大厂可以私下测试多个模型版本, Llama4在发布前甚至测了27个版本 ,然后只公开最佳表现。 数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。 试用Arena数据训练,可提升模型性能 高达112% 。 205个模型被悄悄静默弃用,远超过官方列出的47个。 确实帮助厂商进行测试,最后发布最受欢迎的版本; 但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。 快速刷榜不符合模型进步实际情况 具体来看这项研究,它收集了243个模型的200+万场竞技场battle,并结合私人真实测试,通 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-02 04:36
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 以下岗位均为全职,工作地点:北京中关村。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
微软CEO和奥特曼失了和,OpenAI被“断粮”
量子位· 2025-05-02 04:36
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 就很突然。 许久没有同框的奥特曼和微软CEO纳德拉,刚刚在推特上"大秀恩爱",还透露正在讨论合作新进展。 这没由来的操作,难道是有新发布? 在大多数人模糊的概念里,OpenAI是掀起这一波大模型浪潮的弄潮儿,而微软是其背后的支持者。 在ChatGPT出现之前,微软就为当时还略显透明的OpenAI注入巨额资金,支持其在AI领域的研究。后来又不断加码,给钱,给云服务器…… 但本月月初,微软暂停了美国俄亥俄州中部10亿美元投资计划的三个数据中心园区建设。不只是这一个, 微软正在"放缓或暂停"部分AI数据 中心项目 ,这么看来,OpenAI的算力助力或将因此惨遭骤减。 如今《华尔街日报》一记重锤,直接「揭发」:两人之间还是逐渐生出嫌隙。 ——更准确地说,是 OpenAI和微软的关系日益变得微妙,甚至紧张起来。 奥特曼和纳德拉,离心离德 但仔细一扒,或许更可能是回应新八卦。 就在这两天,《华尔街日报》放出猛料: 奥特曼和纳德拉,这对昔日让两家公司合作共赢的big name, 在诸多事情上分歧日渐加大,渐行渐远 。 奥特曼是谁?OpenAI的掌舵者;纳德拉是谁?微软的 ...
Claude网页版接入MCP!10款应用一键调用,开发者30分钟可创建新集成
量子位· 2025-05-02 04:36
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI MCP逐渐行业标准,提出者Anthropic也官宣了Claude两项重大的针对性更新—— 目前两项更新已向Max、Team和Enterprise用户开放,并在之后覆盖到Pro用户。 Hacker News网友评论说,这是否意味着"万物皆应用"的时代即将开始,大模型的SaaS (软件即服务) 时代就要来临了? 还有人表示,现在只要运行一个自定义网站、连接一个 MCP,就可以享受所有以前SaaS需要付费购买时所需的智能功能,仅凭这一点,未 来十年的OSS就会变得十分有趣。 除此之外,Claude还宣布,网页搜索功能已经面向所有付费用户开放。 Claude网页版接入MCP MCP (模型上下文协议) 是Anthropic提出的一种通信协议,可以实现 大模型应用与外部数据源和工具之间的无缝集成 ,帮助AI获得所需 的上下文数据,生成质量更高、与任务更相关的回答。 目前,MCP已经获得了业界的广泛认可和采用,正在逐渐成为行业开放标准,Anthropic将其比喻成AI应用的Type-C接口。 新增了Integration功能, MCP协议在网页版中也能调用了 ; R ...
招聘|量子位智库AI分析师
量子位· 2025-05-01 03:53
AI 发自 凹非寺 量子位智库 | 公众号 AI123All Hi hi hi,未来同事你好~~ 量子位智库是量子位旗下的产业链接平台。 量子位以AI前沿科技新媒体被广泛认可,量子位智库则进一步聚焦于提供体系化研究输出。 量子位智库产出报告、榜单,也会组织线上和线下的沙龙,链接AI创新和关注者、供需者, 促进产业交流和进步。 目前,有两大板块在招聘纳新—— 一、行业研究·AI分析师 职责描述: 任职要求: 一、AI行业研究报告 二、AI产品数据榜单 1. 聚焦AIGC,围绕垂直场景操作深度产业报告; 2. 持续跟踪AIGC方向产学研进展,与产业专家建立联系连接; 3. 协助到主导完成专题研讨会、闭门会、专业榜单等相关工作。 1. 学习能力强,乐于沟通,能够快速学习新技术新行业; 2. 擅长逻辑分析,快速建立认知体系; 3. 善于学习新工具,高效完成信息检索、整理、桌面研究分析工作; 4. 计算机、经管专业背景优先。 报告成果参考: 《中国AI大模型创业格局报告》 行业最早明确了大模型创业的「6+2」格局。 职位描述: 任职要求: 榜单图谱参考: 1. 围绕国内AI产品收集用户数据、产品迭代、技术更新等信息,定 ...
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 03:53
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。 在普特南测试上, 新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道 。 目前的 第一名 在657道题中只做出 10道 题,为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。 而未针对定理证明优化的 DeepSeek-R1只做出 1道 。 让还没发布的R2更令人期待了。 | 657) | | --- | | (out of | | Lean | | मै | Model | num- | | | --- | --- | --- | --- | | | | solved | compute | | 1 | Kimina-Prover-7B-Distill♥ | 10 | pass@192 | | 2 | Self-play Theorem Prover♥ | 8 | pass@3200 | | 3 | Goedel-Prover-SFT♥ | 7 | pass@512 | | 4 | ABEL | 7 | pass@596 | | 5 | InternLM2.5-StepPr ...
又一开源AI神器!将机器学习论文自动转为可运行代码库
量子位· 2025-05-01 02:07
一水 发自 凹非寺 量子位 | 公众号 QbitAI 又一开源AI神器在外网引起热议! 名为 PaperCoder ,是一个多智能体LLM (大语言模型) 系统,能自动实现机器学习论文中的代码。 2024年,在NeurIPS、ICML和ICLR等顶会上, 平均只有21%的机器学习论文共享了代码 。 据介绍,之所以推出这一工具,是因为经过统计发现: 下面具体来看。 智能体提示词曝光 造成的结果是,复现和构建研究成果的速度极其缓慢。 于是乎,来自 韩国科学技术院 的四位研究人员推出了PaperCoder,在规划、分析和代码生成这三个阶段,分别由专门的智能体来处理不同 的任务,最终完成顶会论文的代码生成工作。 并且最终生成的代码 超越了一些现有基准,甚至获得了所招募的77%原顶会论文作者的认可 。 通过模仿人类研究员编写库级代码的典型生命周期,PaperCoder大致分为三个流程: 规划(Planning) :包括总体计划、架构设计、逻辑设计和配置文件; 分析(Analyzing) :将计划转化为详细的文件级规范; 代码生成(Coding) :生成最终代码以实现论文中的方法和实验。 研究过程中,每一个步骤所用到的提 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-01 02:07
量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...