量子位

Search documents
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
量子位· 2025-05-11 04:20
ModelScope团队 投稿 量子位 | 公众号 QbitAI OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级 图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型 Nexus-Gen ,在图像质量和编辑能力上达GPT-4o同等 水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。 模型先进行图像生成,然后进行图像理解的可视化案例: Nexus-Gen技术细节 总体框架 Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线,融合了SOTA MLLMs的强大文本预测能力 和Diffusion模型的强大图像渲染能力,其总体架构如图所示。 作为一个All-to-All模型,Nexus-Gen的输入和输出都支持图像和文本模态,自回归 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-10 04:41
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
机器人开始抢“主持人”饭碗!上海张江,傅利叶宣布下个十年规划,要做“以人为本的具身智能”
量子位· 2025-05-10 04:41
西风 发自 凹非寺 量子位 | 公众号 QbitAI 打工人打工魂,这年头机器人都开始当主持"人"了。 扭头一看,台下还有个小的机器人在举气球: 坐标上海张江,人形机器人玩家 傅利叶 迎来十周年,在十周年庆典暨首届具身智能生态峰会上, CEO顾捷 宣布了下个十年的规划: 要做以人 为本的具身 智能 。 具体含义包含三个方面: 傅利叶于2015年在张江孵化器起步,康复机器人起家,第一款产品就是 外骨骼机器人 。 已进驻全球3000多家终端医院 在落地成果方面,顾捷透露了一系列合作。 从外骨骼机器人起步,傅利叶在2020年提出了"智能康复港"模式,自主研发覆盖全身、全周期的30多款康复机器人产品,并组建了专业医生 和运营团队。 他们将传统的康复治疗,升级成了用机器人进行评估和训练。 有"温度"的交互: 多模态、个性化,可共情的Agent能力;交互友好的软件+硬件设计。 更"生动"的理解,更"主动"的执行: 视觉、听觉、触觉等多模态感知能力;全身运动控制能力和端到端任务规划能力。 专业可靠,长期相伴: 硬件生产制造、医疗级质量合规验证。 如今已打造了 GR-1 、 GR-2 两款全尺寸人形机器人,前不久又加入开源赛 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-10 04:40
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
量子位· 2025-05-10 04:40
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 当大模型赛道中不少玩家明确表示放弃基础大模型研发,心思放在更聚焦的方向上时,阶跃星辰站出来——就像这家公司第一次亮相时那 样,给外界一个明确的回答: 我们会 坚持基础大模型研发。 创始人兼CEO姜大昕解 释了背后逻辑。 一方面,大模型行业的趋势技术发展还是在非常陡峭的区间。 他也很感慨AI行业发展瞬息万变,"去年大家觉得GPT-4很牛,今天他都快下 架了",等到明年看今年的技术,同样会觉得微不足道。 姜大昕说,阶跃不想在这个过程中放弃主流增长或前进的趋势,所以还是会坚持做基础模型的研发。 另一方面,从应用的角度来看,阶跃仍然相信应用和模型是相辅相成的。 因此,在基座模型上面继续投入以追求智能的上限,仍然是当下最重要的一件事。 要怎么去不停触碰智能的边界or天花板?不如先来看看这个领域里最前沿的趋势有哪些。 姜大昕复盘道,趋势共有如下两条: 一条是"模仿学习到强化学习",另一条是"从多模态融合走向了多模态理解生成一体化"。 从模仿学习到强化学习的技术演进大家已经非常熟悉, OpenAI的o1、o3,以及DeepSeek-R1背后采用的都是强化学习技术,也是现 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-10 02:39
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
一个「always」站在大模型技术C位的传奇男子
量子位· 2025-05-10 02:39
西风 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 怎么老是你??? (How old are you) 这是最近网友不断对着 Transformer八子之一的Noam Shazeer (为方便阅读 ,我们称 他为沙哥) 发出的灵魂疑问。 尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后,有网友发现,其中提到的3-token 因果卷积相关内容,沙哥等又早在三年前就有相关研究。 是的," 又 "。 因为你只要梳理一遍他的工作履历,就不难发现,AI界大大小小的突破背后,总是能发现他的名字。 "不是搞个人崇拜,但为什么总是Noam Shazeer?" △ 网友称右下角沙哥图由GPT-4o生成 朱泽园也自己也站出来表示,沙哥成果超前: 我也觉得Shazeer可能是个时间旅行者。 我原本不相信他们的gated MLP (在写第3.3部分的时候,因为门控多层感知机让训练不稳定) ,但现在我信服了 (在添加了Canon 层之后,我们在第4.1部分对比了多层感知机和门控多层感知机) 。 正式认识一下,沙哥是谁? 他是 Transformer八 ...
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
量子位· 2025-05-10 02:39
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Qwen上新 "AI前端工程师" Web Dev,一句话开发网页应用。 三大件HTML,CSS,JavaScript一个工具全包了,定睛一看用的还是React框架。 几秒钟生成个人网站,布局美观还带特效,接下来改改内容上传GitHub Pages就完事了。 又或者哪家Agent能自动部署网页了,有知道的欢迎在评论区交流。 官方在Twitter的宣传还演示了一句话复刻Twitter界面。 有开发者表示,这不仅是文本到像素级渲染,还可以让团队先快速搭建脚手架,再逐步完善,加快开发流程。 手快的网友已经复刻了GitHub的界面。 Qwen版Canvas/Artifact 除了开发网页应用外,Qwen官方还演示了制作复杂动画的效果。 编写一个水果电子商务网站,创建一个防晒产品介绍网站,都只需要一句话。 当然,要是有更具体的内容和页面布局要求,也可以仔细描述: 创建一个语义化的"联系客服"表单,其中包含用户姓名、邮箱、问题类型和留言等字段。表单元素在卡片内垂直排列。 更高级的玩法是发给AI一个网页,让它根据里面的内容自己创建合适的展示方式。 从前面的例子可以看出,每 ...
鹅厂开源视频生成大杀器!参考图主体精准复刻,还能编辑现有视频
量子位· 2025-05-09 07:03
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 人物部分,提示词如下: A woman takes a selfie in a busy city. A woman holds a smartphone in one hand and makes a peace sign with the other. The background is a bustling street scene with various signs and pedestrians. 刚刚,鹅厂开源"自定义"视频生成模型 HunyuanCustom 。 "自定义"主打的就是主体一致性,用一张图片就可以确定视频主角, 其一致性评分达到了开源模型SOTA ,且可和闭源媲美。 这样在构思提示词时,就可以不必纠结主体特征描述了。 HunyuanCustom一共支持单主体参考、多主体参考、局部编辑、角色配音四大功能。 其中 单主体参考已上线并开源,其余也将在本月内开源 。 此外混元的技术人员还在直播中透露,团队正在和开源社区合作, 将适配AI创作者常用的ComfyUI 。 期待所有功能完整上线的同时,不妨先来看看demo效果! 主体一致性 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-09 05:00
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 你需要做什么? AI大模型方向编辑作者 具身智能机器人方向编辑作者 终端硬件方向编辑作者 AI新媒体编辑(微博/小红书 ...