Workflow
量子位
icon
Search documents
最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦,GitHub已选为Copilot底层模型
量子位· 2025-05-23 00:24
白交 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI圈子好热闹。今天凌晨,Claude终于迎来了它的重大版本升级—— Claude 4来了! 此次主要发布的有两个模型: Claude Opus 4 和 Claude Sonnet 4 。 一经面世,就在编码、高级推理和AI Agent重新定义了新的标准,直接实现SOTA。 GitHub已经宣布,将使用Claude Sonnet 4作为 GitHub Copilot新编码Agent的基础模型 。 单这一个例子,就能看出它非常强的持久工作能力,以及上下文理解能力。 看遍评论区,发现使用过Claude 4几乎都给予了它高度评价,尤其是对Opus 4 (不愧是旗舰模型哇) 。 有人说,"Opus 4是我用上的第一个不用自己动手改,就生成高质量内容的第一个大模型"。 而两个模型里最为人所津津乐道的是旗舰模型Claude Opus 4,它最引人注目的就是持续的干活,一身用不完的牛劲。 比如,它可以在连续24小时畅玩宝可梦,而之前版本Claude 3.7 Sonnet只能连续玩 45 分钟。 其客户之一,日本乐天集团 (Rakuten) 使用Claude Opu ...
雷军发布小米自研3nm芯片系列新品:首搭手机平板和手表,基带模块也亮相了
量子位· 2025-05-23 00:24
克雷西 西风 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,小米 自研SoC芯片玄戒O1 终于揭开神秘面纱! 采用最先进的 第二代 3nm制 程 ,能效表现位列第一梯队—— 发布全程,雷军都在将这块芯片与苹果最先进手机芯片做对标。 玄戒O1 采用双超大核设计,CPU多核性能跑分超越苹果A18 Pro,GPU曼哈顿帧率更是比A18 Pro提升了43%。 与此同时,搭载玄戒O1的小米15S Pro手机也同步发售,16+512GB售价5499。 雷军官宣玄戒O1采用的是3nm制程之时,关键词"3nm"一度登上热搜榜首,连续在榜时间达到了近9个小时。 今天,与小米相关的话题占据了多个热搜词条,"小米发布会"也曾登上首位。 多项指标超越苹果A18 Pro 作为小米首款自主研发的SoC,玄戒O1采用了当前最先进的第二代3nm制程,在109mm²的空间内堆下了190亿颗晶体管。 核心方面,玄戒O1采用了10核4Cluster架构,与苹果一样采取了双超大核结构,包含了两颗Arm最新的X95超大核。 先看综合成绩,玄戒O1芯片的安兔兔实验室综合跑分已经超过了300万,位列第一梯队。 超大核主频达到了3.9GHz,拥有2 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-22 14:29
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 获得专业指导 :会由主编级编辑出任mentor,提供一对一指导,帮你更快进步获得 成长。 加入活力团队 :与一群志同道合的年轻人一起工作,享受扁平、简单、开放、充满 活力的团队氛围。 获得丰厚回报 :具有竞争力的薪资待遇(8K-20K),五险一金、餐补、项目绩 效、商务绩效、加班补助等福利一应俱全。 AI大模型方向编辑作者 具身智能机器人方向编辑作者 终端硬件方向编辑作者 AI新媒体编辑(微博/小红书方向) 紧跟AI浪潮 :密切关注A ...
字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!
量子位· 2025-05-22 14:29
字节跳动刚刚开源一款全新文档解析模型—— Dolphin 。 与目前市面上各类大模型相比,这款轻量级模型不仅体积小、速度快,并且取得了令人惊艳的性能突破, 解析效率提升近2倍 。 Dolphin团队 投稿 量子位 | 公众号 QbitAI 测试结果显示,Dolphin在文档解析任务上解析准确率超越了 GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL 等通用多 模态大模型,以及最近推出的号称最强OCR大模型的 Mistral-OCR 等垂类大模型。 论文已被收录于ACL 2025,项目链接可见文末。 突破性的两阶段解析方法 文档图像解析解决方案可以分为两大流派:集成式方法以及端到端方法。 集成式方法在链路中组装多个专家模型,端到端方法则利用视觉语言模型通过自回归解码直接生成结构化结果。 而Dolphin采用了全新的 "先解析结构后解析内容"(analyze-then-parse) 两阶段范式: 这种创新架构一箭双雕,既避免了传统商用方案中多OCR专家模型级联带来的错误累积问题,又克服了通用多模态大模型易丢失版面结构 信息、自回归解码效率低的痛点。 因为获取孤立的 ...
腾讯大模型战略首次全景亮相!智能体平台重磅上线,从“落地可用”到“智能协同”
量子位· 2025-05-22 14:29
昨天,腾讯云在他们的AI产业应用峰会上,正式上线了全新的 智能体开发平台 ,率先在行业内实现零代码配置多智能体协同构建。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 智能体的开发门槛,又又又被打下来了! 除了上线智能体开发平台,腾讯云也 对从AI Infra到模型到应用的整个体系来了波全面升级。 多智能体开发,零代码搞定 腾讯云智能体开发平台的前身是"大模型知识引擎"。据吴永坚介绍,平台在 RAG能力、工作流能力、多Agent协作机制及To B实战场景支持 方面具备明显差异化优势。 包括混元系列大模型,也迎来了重磅更新。 腾讯云副总裁吴永坚对量子位表示:"腾讯云在智能体领域的产品布局,是围绕企业真实需求逐步演进的。整体思路是从场景出发,扎实解决 实际问题,并 推动能力从'落地可用'逐步迈向'智能协同' 。" 从一系列接踵而来的更新当中,可以看到鹅厂的企业级AI产品体系正在变得越来越完整。 对腾讯云自身而言,这些发布和更新也意味着其产品能力被进一步补齐。 平台具备先进的RAG (Retrieval-Augmented Generation,检索增强生成) 能力 ,先从知识库中检索信息,再由大模型基于 ...
无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025
量子位· 2025-05-22 14:29
HRAvatar团队 投稿 量子位 | 公众号 QbitAI 创建3D头像化身对于电影、游戏、沉浸式会议、AR/VR等领域至关重要。在这些应用中,头像化身必须满足几个要求:可动画化、实时、高 质量和视觉上逼真。 然而,从易获取的单目视频中创建高度逼真且可动画化的头像仍然具较大的挑战性。尽管基于3D 高斯(3DGS)的方法在可动画性和实时渲 染方面取得进展,但其重建质量仍受三方面限制。 几何变形灵活性不足 :现有方法依赖通用参数模型(3DMM)驱动高斯点变形,难以准确捕捉个性化表情变化; 表情追踪不准确 :训练前通过2D关键点拟合获取表情参数不够准确,直接优化表情参数则泛化性差,需在测试时进行后优化; 在数字人、虚拟主播、AR/VR等场景快速发展背景下,如何高效生成真实、可动、可重光照的3D头像成为关键。 来自 清华 和 IDEA 的研究团队,联合开发了 HRAvatar (High-Quality and Relightable Gaussian Head Avatar),一种基于单目视频 的3D高斯头像重建方法。采用 可学习形变基和线性蒙皮技术 ,实现灵活且精确的几何变形,并通过精准的表情编码器减少追踪误差 ...
AI十周找到不治之症潜在新疗法,核心流程完全自主驱动
量子位· 2025-05-22 14:29
西风 发自 凹非寺 量子位 | 公众号 QbitAI 无特效疗法、无法根治的疾病,现在被「AI科学家」发现了潜在新疗法。 核 心流程完全由 AI驱动 ,人类研究员仅执行了实验室实验和最终论文撰写的那种。 最近非营利性组织Future House宣布了一个最新成果: 可以致盲的眼部疾病—— 干 性年龄相关 性黄斑变性 (dAMD) ,或许有救了。 他们用一个 多智能体系统 ,成功锁定 Ripasudil 这种已在日本获批用于临床治疗青光眼的ROCK抑制剂,对这种病具有潜在治疗效果。 团队咨询了多位有关此疾病领域的专家,均对这一发现的创新性和价值持认可态度。 重要的是,除实验室实际物理实验操作和最终手稿撰写外,论文形成所需的核心环节均由智能体完成,包括提出假设、实验设计、数据分析到 迭代优化的全流程。 甚至Agent还协助完成了论文图表的绘制。 整个研究仅耗时约10周 ,远短于研究团队手动完成所有计算机模拟环节的时间。 团队还特别说明,他们此前从未在其他文献中发现有人提出使用ROCK抑制剂治疗dAMD: 如果没有这些Agent,我们很难提出这一假设。 另外研究团队还表示, 将在下周开源代码和数据 。 这一成果公布 ...
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位· 2025-05-22 14:29
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外: 闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50% 准确率。 why? 因为大模型可能并不能真正理解基本数学元素和视觉概念。 现有的视觉数学基准测试主要集中在知识导向的评估上,容易受到大型语言模型中预先嵌入的知识的影响。 上述结论来自达摩院推出的新基准 VCBench ——这是一个专为评估 具备显式视觉依赖性的多模态数学推理任务 而设计的综合基准。 VCBench团队 投稿 量子位 | 公众号 QbitAI 该基准主要面向小学 1-6 年级的数学问题,即 并不涉及复杂的数学或几何推理,但高度依赖于显式的视觉依赖性 的问题。 解决这种问题,需要模型识别和整合图像中的视觉特征,并理解不同视觉元素之间的关系。 △ 论文标题:Benchmarking Multimodal Mathematical Reasoning with Explicit ...
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位· 2025-05-22 14:24
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI替咱打工搞翻译,到底谁家最好用? 终于,有人来统一翻译江湖的标准了: 首个应用型AI翻译测评榜单TransBench在OpenCompass上线 。 它由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布。 与传统的翻译测评体系相比,TransBench 增加了幻觉率、文化禁忌词、敬语规范等指标 ,专门针对大模型翻译最容易出错的关键问题进行 实战考核。 比如: 这是首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标 准。 目前, TransBench评测方法与数据集已全面开源 ,也已发布了首期测评结果。 欢迎各个AI翻译机构去打榜,一较高下~ GPT-4o稳坐"翻译AI天花板" 官网表示,TransBench数据集中涵盖中、英、法、日、韩、西班牙等多种语言。 此外,还在不断持续更新海量小语种。 TransBench评测体系中的数据集,根据"通用标准""电商文化""文化特性"三个大类,整理了不同的数据集。 目前,TransBench多语言翻译评测榜单首期已经出 ...
雷军发布小米自研3nm芯片系列新品:首搭手机平板和手表,基带模块也亮相了
量子位· 2025-05-22 14:24
克雷西 西风 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,小米 自研SoC芯片玄戒O1 终于揭开神秘面纱! 采用最先进的 第二代 3nm制 程 ,能效表现位列第一梯队—— 发布全程,雷军都在将这块芯片与苹果最先进手机芯片做对标。 玄戒O1 采用双超大核设计,CPU多核性能跑分超越苹果A18 Pro,GPU曼哈顿帧率更是比A18 Pro提升了43%。 与此同时,搭载玄戒O1的小米15S Pro手机也同步发售,16+512GB售价5499。 雷军官宣玄戒O1采用的是3nm制程之时,关键词"3nm"一度登上热搜榜首,连续在榜时间达到了近9个小时。 今天,与小米相关的话题占据了多个热搜词条,"小米发布会"也曾登上首位。 多项指标超越苹果A18 Pro 作为小米首款自主研发的SoC,玄戒O1采用了当前最先进的第二代3nm制程,在109mm²的空间内堆下了190亿颗晶体管。 核心方面,玄戒O1采用了10核4Cluster架构,与苹果一样采取了双超大核结构,包含了两颗Arm最新的X95超大核。 先看综合成绩,玄戒O1芯片的安兔兔实验室综合跑分已经超过了300万,位列第一梯队。 超大核主频达到了3.9GHz,拥有2 ...