Workflow
量子位
icon
Search documents
字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
量子位· 2025-05-15 06:26
西风 发自 凹非寺 量子位 | 公众号 QbitAI 和人工标记数据说拜拜,利用预训练语言模型中的注意力机制就能选择 可激发推理能力的训练数据 ! 字节Seed团队最新宣布了一个重要成果—— At te ntionInflu en ce 。 无需训练,无需标签 ,只需用1.3B模型给7B模型选择数据,就能提升模型推理能力,甚至也能提升代码生成能力。 以往,筛选数据的方法通常依赖于监督分类器,需要人工或大语言模型进行标注,难免引入领域特定偏见。 字节Seed团队注意到: 预训练模型中的检索头与检索和上下文推理紧密相关。 检索头在训练早期就会出现,逐渐增强,并最终在训练的中后期阶段牢固建立,对模型性能起到至关重要的作用。 1.3B参数稠密模型中检索头的演化过程,be like: 但如果直接关闭它们会怎样? 他们用小型预训练语言模型通过简单的 注意力头屏蔽 操作,充当强大的模型的数据选择器。 具体操作是 , 识别重要检索头,屏蔽这些头以创建性能下降的"弱"模型, 计算"弱"模型与原始"强"模型之间的损失差异,根据损失增加幅度 对数据进行排名 ,形成影响分数 。 没想到,实验后他们得到了一个惊人结果。 将Attent ...
新晋顶流Agent颠覆设计师!Lovart一手实测来了:是该刷屏爆火
量子位· 2025-05-15 04:26
西风 发自 凹非寺 量子位 | 公众号 QbitAI 又一个Agent火爆全网—— 一句 话搞 定专业视觉 设 计 ,就连专业设计师大V都在疯狂安利! 画风be like: 咱就是说,一整个被fashion住了。 创作出它们的设计从业者@Ege表示,自己用这个AI设计助手轻松搞定了一整套时装品牌视觉设计方案,而原本他自己一个人需要"花好几天 时间"。 还有人用这个Agent做了特斯拉 Robotaxi的广告牌: 结果发现被马斯克亲自点赞。 在官方展示中,炫酷作品还有很多,下面这些海报也都由这个Agent出品: 甚至不限于图片,视频、3D创作也都能行: 这个Agent还特别在,支持一系列 专业级别的二次编辑 , 能做到 图文分离 ,分图层编辑。 这下真的再也不用担心文字生成不好了。 一张平平无奇的饮料图片都能分分钟变身精美宣传图: 不卖关子,此Agent名为 Lov art ,主打海报、品牌VI、Storyboard (剧本、镜头、声画打包生成的故事板) 设计。 Beta测试版刚上线24小时,申请内测人数就超20000。 网友们都已纷纷下场玩起来了,战果频出,来感受一下这个火爆程度: 有新玩具了量子位自然不能错 ...
新版Claude曝光:“极限推理”成最大亮点
量子位· 2025-05-15 04:26
金磊 发自 凹非寺 量子位 | 公众号 QbitAI O家(OpenAI)刚免费上线GPT-4.1,A家(Anthropic)这边也被曝出新消息—— 新版 Claude Sonnet 和 Claude Opus ,已经在路上了! 这一消息来自The Information,根据它的说法,新版模型最大的亮点,就是 "极限推理" (Extreme reasoning)。 简单来说,这个新功能是通过在推理和工具使用之间建立动态循环,能够更智能地处理问题。 预计新版模型将在 未来几周 内发布。 接下来,我们深入了解一下这个新功能。 可以"极限推理"的Claude 正如刚才我们提到的,这个功能并不是简单地回答问题。 例如模型在遇到困难时不会直接给出答案,而是会 暂停、重新评估 问题,并在必要时调整策略。 模型能够结合上下文进行深度反思,而不仅仅是基于统计的语言生成。 这种协作式推理,让新模型更接近于人类协作者的思维方式,能够像人类一样进行推理,而不仅仅是作为"计算器"。 不过毕竟爆料,有网友对此持怀疑态度,认为有炒作的嫌疑。 但也有网友回应称,这是来自The Information的消息,还是比较靠谱的信源。 确实有个 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-15 04:26
量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
Switch 2芯片细节曝光!英伟达专门定制支持DLSS,网友:掌机模式相当于PS4
量子位· 2025-05-15 04:26
Switch 2处理器,细节被实锤! 数毛社 (Digital Foundry) 消息,已经确定Switch 2采用的是英伟达真·定制版芯片,包含8核CPU和12GB LPDDR5X内存。 GPU则基于Ampere架构,和30系显卡同款,拥有1536个CUDA核心,支持DLSS。 看了这样的配置,有网友表示可以达到Steam Deck的级别,并且视觉效果可能会更好。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 还有网友直接拿隔壁索尼给出了对比——底座模式相当于PS4 Pro,而掌机模式相当于PS4。 Switch芯片这次真定制了 之前Switch 1首次发布时,老任宣传采用了"定制的英伟达Tegra处理器",但实际上用的只是普通的Tegra X1。 不过数毛社表示,这次从出货清单和英伟达的泄露信息上来看, Switch 2的SoC是真·定制 。 CPU上,该芯片采用了8核配置,拥有 8颗ARM Cortex A78C ,运行ARMv8 64位指令集,并启用了加密扩展 (SDK不支持32位) 。 ARM官方信息显示,A78C有多种配置可以选择,Switch 2选择的是64K的L1指令缓存+64K的L ...
全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品
量子位· 2025-05-15 04:26
PreSelect团队 投稿 量子位 | 公众号 QbitAI vivo自研大模型用的数据筛选方法,公开了。 香港科技大学和vivo AI Lab联名提出 PreSelect ,目前已被ICML 2025接收。 这是一种轻量级且高效的数据选择方法:只需要训练和部署一个基于fastText的评分器,就可以减少10倍的计算需求。 该方法提出数据的 预测强度 (Predictive Strength) 的概念和计算公式,利用在不同模型上Loss有序性表征数据对特定能力的贡献,通过获 取特定能力的有效样本训练fastText分类器对全量训练数据进行筛选。 △ 论文标题:Predictive Data Selection: The Data That Predicts Is the Data That Teaches PreSelect:更客观、更轻量 现有的数据筛选方法主要分为两类:基于规则的筛选和基于模型的筛选。 基于规则的筛选依赖人工构建的先验规则,如C4 pipeline、Gopher rules,以及RefinedWeb和FineWeb的数据筛选流程。此类方法虽然实 现简单,但容易受到人工经验的限制,存在泛化 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-15 01:25
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 你需要做什么? 我们希望你是: AI狂热爱好者 :对AI大模型、前沿科技充满热情,痴迷于探索科技新进展。 文字表达高手 :具备扎实的文字功底, ...
今天起全员免费!GPT-4.1上线ChatGPT,首波实测:又快又听话,油腻感没了
量子位· 2025-05-15 01:25
今天凌晨开始, GPT-4.1可以直接在ChatGPT中使用 了! 而且是 不管付费的没付费的,所有用户均可使用 那种~ 官方介绍,GPT-4.1是一款专门针对编码任务和指令执行的模型,推理效率非常高。 看看这张网友们自制的表格,它的能力一目了然: 这家伙一个月前被OpenAI公开,当时声明专供API使用。 但等等党终究迎来胜利——GPT-4.1的负责人Michelle Pokrass表示: 我们最初真的计划只把这个模型开放给API,但你们都希望它能出现在ChatGPT里: ) 现在,Plus、Pro、团队用户可以在模型选择处下拉,选择使用GPT-4.1;企业和教育用户将在接下来的几周内获得访问权限。 而免费用户使用模型中的"GPT-4o mini"会被"GPT-4.1 mini"替代。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 在此之前,GPT-4.1已经在API里取代了GPT-4.5 Preview了。 不少朋友们挺开心的,AI编程终于有更快更好的模型可以方便地用上了! 首波反馈:速度很快 不得不说,GPT-4.1放进ChatGPT就是比用API方便,很多小伙伴们都在第一时间玩起来了。 截至推 ...
陶哲轩DeepMind梦幻联动,最强通用科学Agent来了!一口气解决芯片设计、矩阵乘法和300年几何难题
量子位· 2025-05-15 01:25
白交 发自 凹非寺 量子位 | 公众号 QbitAI Nature:「令人惊叹」的通用科学人工智能来了! 谷歌DeepMind再次甩出一颗重磅炸弹:与陶哲轩等一众顶尖科学家一起共同打造 AlphaEvolve 。 它可以设计出更快的矩阵乘法算法,可以改进芯片设计、提高数据中心、AI训练的效率,已经在谷歌内部用上了。 它将Gemini架构中大型矩阵乘法运算加速了23%,从而将Gemini的训练时间缩短了1%,谷歌程序员狂喜(bushi)。此外还将 FlashAttention提速了32.5%。 几百年前未曾解决过的数学问题,也都能因为它前进一大步。 比如一个经典的300年前的几何挑战 接吻数(Kissing Number)问题 。它关注的是,给定空间内球面相切的不重叠球体的最大数量。 一维空间和二维空间是这样的。 AlphaEvolve发现了一个由593个外球体组成的结构,直接刷新了11维空间中的下限。 wiki百科上已经更新了记录。 | S | 306 | 363 | | --- | --- | --- | | 10 | 510 | 553 | | 11 | 593 131 | 868 | | 12 | 84 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-14 10:02
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 获得专业指导 :会由主编级编辑出任men ...