量子位

Search documents
Agent创业来了位13岁的CEO
量子位· 2025-06-17 09:16
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 大模型创业有多火?现在13岁少年都入局了,做的还是今年大热的方向—— Agent 。 当同龄人还在用AI写作业,来自加拿大多伦多的 Michael Goldstein ,已经是一家AI初创公司 FloweAI 的创始人兼CEO。 这位少年CEO,不仅亲手打造了一个能用自然语言指令完成PPT制作、文档撰写、航班预订等日常任务的通用AI智能体,更是定下 "月入1万 美元" 的商业目标。 如今他一边读书,一边积极招募合伙人,希望努力将公司营业规模扩张至 百万美元 。 而且已经有大学毕业生来给他打工了。 难怪网友都惊呼: 看看别人家的13岁! 一手实测FloweAI 目前FloweAI仅支持 网站端 使用,暂未开放SDK、API接口等其他接入方式。 进入FloweAI网站界面,首先能看到相当简洁干净的对话页面,只需要进行简单的邮箱注册,就可以上手使用。 前情提示,免费用户每月可以测试10个任务 (注意:任务完成时才会计数,中途退出不扣次数) 。 额外付费20加元 (折合人民币105元) 升级为Pro用户,即可享受无限次使用,并解锁高级功能,例如文本生成图像和视频、 ...
吉卜力风「手游」爆火,可灵+Midjourney生成的!教程已出,支持复刻
量子位· 2025-06-17 09:16
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 芜湖,吉卜力风的"手游",原来可以这么好看吗? 不仅画风精美、配色清新,光线还很自然。 但应用商店可下载不了(doge)。 因为,它 是AI做的 。 这就是最近在Reddit和推特上都很火的"吉卜力风格游戏"。 创作者通过 可灵A I 、 Midjourney ,只是给了文字提示,就实现了如上效果。 根据给出的提示词,还能轻松复刻类似效果。 这不,有人立马就安排上了。 还有不少人感叹,氛围和细节都很棒! 在无限生成游戏里随意玩耍简直是小时候的梦想,看来AI能帮我实现这个愿望。 下面来看具体是如何做的。 仅凭2段提示词即可制作 在创作者公开的制作指南中了解到,原来是先在Midjourney上生成图像,然后再用可灵2.1生成视频。 画面中的按钮、小地图等HUD元素是通过Joystick图片添加的。 先来看个钓鱼的例子。 图片的提示词是: 第一人称视角视频游戏截图,一个穿着稍大白色T恤(盐渍袖口)和膝长蓝色短裤的年轻动漫主角,可见的手紧握着竹制鱼竿。在日落的 苔藓码头桥上跪着,手臂放在膝盖上。前景:'E: 收线'提示随着线被拉紧。背景:粉彩色钓鱼船,远处宫崎骏风 ...
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 07:41
白交 发自 凹非寺 量子位 | 公众号 QbitAI CVPR 2025落下帷幕,这次关注度和社交参与感,非常深度了。 比如随手抓住一只何恺明,直接变成追星现场。 在以谷歌/Meta等国际巨头为主导的展区里,中国企业规模创纪录,像腾讯、字节等大展区里面人从众。 总结下来,有这样几个有意思的发现。 展台面前排队体验的技术Demo,妥妥都是技术风向标~ 首先, 多模态、3D生成 是此次论文接收和现场研讨的热门方向,尤其像3D生成是亮点,背后高斯泼溅技术成为此次论文标题出现次数最多 的前五关键词之一。 其次, 对于基础模型的讨论远比以往更加深入,并且延伸到了产业落地 。具身智能、机器人AI在Workshop议程设置中独立出来一个大的板 块。 最后,中国企业今年参与得很深度,不过目前还是聚焦在已经成熟商业化的大公司。 多模态成为接收论文标题中的高频词,3D发展速度快、成果亮眼。 有热心网友整理了2878篇论文标题,得出了以下高频词。 除此之外还有哪些亮点,现在就带大家一网打尽。 探展CVPR 2025 CVPR含金量提升 CVPR,视觉领域妥妥的顶会,甚至与其他两位并称的顶会ICCV和ECCV相比,名气还要高那么一点 ...
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
量子位· 2025-06-17 07:41
一水 发自 凹非寺 量子位 | 公众号 QbitAI 它在LiveCodeBench上几乎与OpenAI o3-high相当,乃至一众网友猜测其为传说中的R2。 编程王者Claude地位不稳了?? 大模型竞技场最新战报出炉, DeepSeek新版R1拿下网页编程第一,小胜Claude Opus 4 。 要知道Claude Opus 4可是公认的"全球最强编码模型"。 so,能在编程上战胜 Claude Opus 4 ,DeepSeek-R1-0528到底啥来头? 看名字你可能以为是个小版本更新,但实际上—— | | | | 10/1/2024 | | 5/1/2025 | | --- | --- | --- | --- | --- | --- | | Rank | Model | Pass ... ↓ | | Easy… Medium… | I Hard ... | | 1 | 04-Mini (High) | 79.5 | 98.8 | 86.7 | 63.8 | | 2 | 03 (High) | 75.4 | 98.8 | 81.9 | 57.9 | | | | | 9 | | | | 4 | Deep ...
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
量子位· 2025-06-17 07:41
GRA团队 投稿 量子位 | 公众号 QbitAI 无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升? 上海人工智能实验室联合中国人民大学提出的 GRA框架 (Generator–Reviewer–Adjudicator) 正是这样一种新范式: 该方法以"多人协作"、"角色分工"的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。 实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5- 72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。 如果说传统方法是单枪匹马生成数据,那GRA更像是一次"模拟顶会审稿流程"——作者、审稿人、AC各就各位,小模型分工合作、打分评 审,确保数据内容质量稳定、标准统一。 1.Generator:像"作者"一样创作新样本 GRA会先将任务划分为多个领域(如数学、编程、逻辑推理等),每个Generator小模型负责在对应领域生成新指令与响应。它们从种子数据 中提取关键词与摘要,结合领域知识生成高质量样本,确保内容丰富、主题聚焦、语义清晰。 2.Review ...
AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA
量子位· 2025-06-17 07:41
阿里通义实验室联合中科院自动化所推出全新的 GUI-Critic-R1 模型,能在操作执行前对GUI智能体的决策进行诊断,以避免不必要的操作 和不可挽回的错误。 GUI-Critic-R1成功纠错的3个案例如下: GUI-Critic-R1团队 投稿 量子位 | 公众号 QbitAI GUI智能体总是出错, 甚至是不可逆的错误。 即使是像GPT-4o这样的顶级多模态大模型,也会因为缺乏常识而在执行GUI任务时犯错。在它即将执行错误决策时,需要有人提醒它出错 了。 指令1:在Joplin应用程序中,有多少与会者参加了名为"员工绩效评估"的会议? 智能体被要求在Joplin应用程序中查找一个文件,但遇到的界面中目标文件不可见,智能体错误地认为应该返回上一个界面。模型建议点击搜 索框以找到目标文件,帮助智能体成功地完成了任务。 指令2:删除"专业费用"中所有完全重复的费用项,只保留每项费用的一个实例。 第5步时,智能体错误地决定点击"统计"按钮,这是不正确的。GUI-Critic-R1模型成功地识别了这个错误动作,分析了错误的原因,即选择此 按钮会导航到显示费用统计的新界面,这与删除重复费用的要求无关。GUI-Cr ...
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 07:41
MathFusion通过三种"融合策略",将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。 △ 越靠左上角,模型表现越好且数据效率越高。 核心思想:三种"融合策略" MathFusion团队 投稿 量子位 | 公众号 QbitAI 当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关 联性。 为了打破这种局限,让大模型学会"串联"与"并联"知识,上海AI Lab、人大高瓴等团队联合提出了 MathFusion ,通过指令融合增强大语言 模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。 顺序融合(Sequential Fusion) 将两个问题串联起来,前一个问题的答案作为后一个问题的某个输入条件。这就像解决一个多步骤问题,模型需要先解出第一步,才能进 行第二步,从而学会处理问题间的依赖关系。 并列融合(Parallel Fusion) 将两个相似的问题融合在一起,对它们的数学概念进行识别和融合,在原来问题的基础上提出一道新 ...
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
量子位· 2025-06-17 01:03
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 深夜,沉寂已久的Kimi突然发布了新模型—— 开源代码模型 Kimi-Dev ,在SWE-bench Verified上以60.4%的成绩 取得开源SOTA 。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。 Kimi-Dev采用MIT协议,目前权重和代码均已发布,还有网友制作的量化版本也已在抱抱脸上线。 为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,Kimi团队以Qwen 2.5-72B基础模型为起点使用约1500亿高质量真实数据进 行 中期训练 。 具体来说,Kimi团队 收集了数百万个GitHub issue和PR提交 ,目的是让Kimi-Dev-72B能够学习人类开发人员如何推理并解决GitHub问 题。 文件定位 (File Localization) :首先找到需要修改的正确文件; 代码编辑 (Code Edits) :修正现有代码中的问题或潜在缺陷(BugFixer),以及编写并添加新的单 ...
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位· 2025-06-17 01:03
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 国产推理大模型又有重磅选手。 MiniMax开源 MiniMax-M1 ,迅速引起热议。 这个模型有多猛?直接上数据: MiniMax团队透露,只用了3周时间、512块H800 GPU就完成强化学习训练阶段,算力租用成本仅 53.47万美元 (约383.9万元)。 不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任 务上甚至超越了OpenAI o3和Claude 4 Opus。 MiniMax-M1实战表现如何?官方给出了一句话生成迷宫小游戏的Demo。 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引 力。 目前模型权重已可在HuggingFace下载,技术报告同步公开。 原生支持100万token的输入长度,是DeepSeek R1的约8倍。 同时支持8万输出token,超过Gemini 2.5 Pro的6.4万,成为 世界最长输出 。 生成10万token时,推理算力只需要DeepSe ...
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 10:30
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 可以看到跑步动作和人物、空间转换非常丝滑。 下面这个挖蛋糕的场景不仅逼真,勺子上还有倒影,非常细节了。 图像生成界的"大魔王" Midjourney 也来卷视频生成了?! 一石激起千层浪,消息一出,Reddit点赞量直达2.5k。 上面展示的就是一个视频效果。 还引发了网友们激烈讨论。 有人说"这是第一次以为是人工拍摄的视频"、"几乎和现实无法区分"。 不仅视频模型表现良好,Midjourney的 图像模型V7 也在不断更新中。 不仅效果惊人,价格还由你来定 再来看看更多的效果演示。 多人物动作和视角切换也非常丝滑。 小猫的动作和人手的动作都很有物理真实感。 小狗滑滑板来了~ 汽车漂移也不在话下。 没有音频功能 。 是的,网友们也发现了这一点。 小猫美甲确实很精细,但更细节的是手部的纹路,手指上居然还有指纹 (虽然有一部分指纹是缺失的) 。 不过,也正如上面那位网友所说,有些地方还是不太合理的。 比如,这个叠毯子的场景中,虽然考虑到了手部发力扯出的褶皱,给人一定的物理真实感,但是后面像是毯子自己缩回去了…… 总体看下来,Midjourney的这个视频生成模 ...