Workflow
世界模型
icon
Search documents
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅APP· 2025-06-20 09:47
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO (ID:appsolution) ,作者:appso,原文标题:《这个AI生图神器首次发布视频模型:不卷分辨率,但网友直呼画面 惊艳超预期|附提示词》,题图来自:AI生成 面对迪士尼和环球影业的版权诉讼,老牌文生图"独角兽"Midjourney没有放慢节奏,反而于今天凌晨顶着压力推出了首个视频模型V1。 调色精准、构图考究、情绪饱满,风格依旧在线。 不卷分辨率、不卷长镜头、Midjourney卷的,是一股独有的氛围感和审美辨识度。Midjourney是有野心的,目标剑指"世界模型",但目前略显"粗糙"的 功能设计,能否让其走得更远,恐怕还是一个未知数。 你卷你的分辨率,我走我的超现实。 Midjourney一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。 省流版如下: 上传或生成图像后点击"Animate"即可,单次任务默认输出4段5秒视频 ...
本周精华总结:Meta发布世界模型,下一个ChatGPT时刻何时来临?
老徐抓AI趋势· 2025-06-19 16:47
欢迎大家 点击【预约】 按钮 文字版速览 预约 我 下一场直播 本文重点 观点来自: 6 月 16 日本周一直播 【 强 烈建议直接看】 本段视频精华,逻辑更完整 自动驾驶系统要像老司机一样理解复杂的交通场景,不仅是识别路况,更要对潜在风险做出预判——例 如,看到前车旁边有人过马路被遮挡,系统要能预测行人可能出现的位置,从而保证行车安全和平稳。 没有对物理世界和事件的深刻理解,自动驾驶无法实现真正的安全与智能。 更广泛来看,具备成熟世界模型的机器人将极大提升生产力,推动经济飞速发展,带动运输、物流、公 共和私人交通等行业变革。我认为,拥有这一技术优势的企业将成为未来市场的最大受益者,提前布局 相关机会尤为重要。 此外,量子计算技术也在加速发展。黄仁勋最近在欧洲演讲中提到,量子计算的拐点即将到来,这将进 一步促进科学研究和AI进步,加速人类科技革命的步伐。我认为,这场科技革命的节奏将越来越快, 未来几年内我们可能迎来多次类似蒸汽机或电力革命级别的突破,全球经济和社会结构都将因此发生深 刻变革。 以上内容仅为案例展示,不构成投资建议,投资有风险,交易需谨慎。 注:基金投顾服务由盈米--小帮投顾服务团队提供!投资有 ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
Hu Xiu· 2025-06-19 06:56
面对迪士尼和环球影业的版权诉讼,老牌文生图"独角兽"Midjourney没有放慢节奏,反而于今天凌晨顶着压力推出了首个视频模型V1。 调色精准、构图考究、情绪饱满,风格依旧在线。 不卷分辨率、不卷长镜头、Midjourney卷的,是一股独有的氛围感和审美辨识度。Midjourney是有野心的,目标剑指"世界模型",但目前略显"粗糙"的功 能设计,能否让其走得更远,恐怕还是一个未知数。 省流版如下: 上传或生成图像后点击"Animate"即可,单次任务默认输出4段5秒视频,最长可扩展至21秒; 支持手动和自动两种模式,用户可通过提示词设定画面生成效果;提供低运动和高运动选项,分别适合静态氛围或强动态场景; 0:00 / 2:24 Midjourney官方宣传demo 开卷氛围感,Midjourney视频模型正式上线 你卷你的分辨率,我走我的超现实。 Midjourney一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。 Prompt:The train passing through the station.|@PJaccetturo 知名X博主@ ...
Midjourney 推出其首个图生视频模型 V1:延续美学风格,目标是构建「世界模型」
Founder Park· 2025-06-19 05:52
内容转载自 「 AI寒武纪 」 今天凌晨,Midjourney推出视频生成模型 V1,主打高性价比、易于上手的视频生成功能,作为其实 现"实时模拟世界"愿景的第一步。用户现在可以通过动画化Midjourney图片或自己的图片来创作短视 频,定位为有趣、易用、美观且价格亲民。 Midjourney一如既往,视频模型在美学细节上下了一番功夫,官方宣传视频: 超 7000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 图生视频, 支持手动和自动两种模式 最新、最值得关注的 AI 新品资讯; 不定期赠送热门新品的邀请码、会员码; 最精准的AI产品曝光渠道 核心流程 :采用"图像转视频" (Image-to-Video) 的工作方式。用户先生成一张满意的图 片,然后点击新增的 "Animate" 按钮来使其动画化。 支持外部图片 :用户可以上传自己的图片,然后通过输入运动提示词来生成视频。 两种动画模式 : 自动模式 (Automatic):AI 会自动为你生成"运动提示",简单快捷 手动模式 (Manual):用户可以自己写 ...
第四范式(06682):2025Q1业绩超预期,Agent业务高歌猛进带动公司进入高速增长轨道
股票研究 /[Table_Date] 2025.06.17 2025-06-17 2025Q1 业绩超预期,Agent 业务高歌猛进带动公司进 入高速增长轨道 第四范式(6682) [Table_Industry] 计算机 [Table_Invest] 评级: 增持 证 券 研 股 票 研 究 究 报 告 [Table_CurPrice] 当前价格(港元): 45.80 [Table_Market] 交易数据 52 周内股价区间(港元) 20.05-62.55 本报告导读: 宏观承压下,公司 25Q1 营收增速实现逆势高速增长,Agent 对公司业务加持已经凸 显,全年转盈趋势确定的背景下,公司在 2B+2C 双轮驱动下长期增长可期。 投资要点: | [Table_Finance] 财务摘要 (百万人民币) | 2022A | 2023A | 2024A | 2025E | 2026E | 2027E | | --- | --- | --- | --- | --- | --- | --- | | 营业收入 | 3,087.63 | 4,206.95 | 5,260.65 | 6,883.82 | 8,862. ...
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
机器之心· 2025-06-17 04:50
机器之心报道 作者:泽南 L3 级别智能驾驶的关键:大算力、大模型、大数据。 端到端智能驾驶,正在沿着大模型 Scaling Laws 的道路狂奔。 上周三,全球首款 L3 级算力「AI 汽车」小鹏 G7 正式亮相,其首发搭载的三颗自研图灵 AI 芯片,超过 2200TOPS 有效算力,本地部署的 VLA+VLM 模 型等特性引发了关注。 基于超高端侧算力,小鹏 G7 行业首发了智驾大脑 + 小脑 VLA-OL 模型,第一次给智能辅助驾驶加入了「运动型大脑」的决策判断能力。 小鹏 G7 同时首发了 VLM(视觉大模型),它可以作为车辆理解世界的 AI 大脑,将会是人与汽车交互的新一代入口。作为车辆行动的中枢,可以指导智能 辅助驾驶和智舱等整车能力,未来还可以实现本地聊天、主动服务、多语言等功能。 尽管只是在后装算力的车辆上用早期版本的模型进行测试,小鹏自动驾驶基模已经展现出令人惊叹的智能和拟人水平。 同样是在上周,美国纳什维尔举行的 全球计算机视觉顶会 CVPR 2025 上,小鹏作为唯一受邀的中国车企分享了其自动驾驶基座模型的研发进展 。 小鹏自去年 5 月就宣布了量产端到端大模型上车,并构建了从算力、算法 ...
本周精华总结:谷歌AI的进阶之路:从技术积累到发现新知的未来探索
老徐抓AI趋势· 2025-06-15 03:41
欢迎大家 点击【预约】 按钮 预约 我 下一场直播 本文重点 观点来自: 6 月 9 日本周一直播 谷歌未来的目标是实现通用人工智能(AGI),即让机器具备与人脑同等的通用智能能力。DeepMind 团队对AGI有清晰定义,认为通用智能即机器能像人脑一样处理各种任务。尽管现阶段AI在某些简单任 务仍有不足,但正在不断弥补"认知漏洞",逐步向真正的通用智能靠近。 【 强 烈建议直接看】 本段视频精华,逻辑更完整 谷歌与特斯拉被认为是最接近实现"世界模型"的两家公司,谷歌依托YouTube海量视频数据,特斯拉则 依靠车辆摄像头采集的现实世界数据。这些多维度的现实数据对训练通用智能极为关键,远超单一文本 数据的深度。 文字版速览 总的来说,谷歌的AI技术不仅扎实,更具备创新和超越的潜力。未来几年,谷歌AI有望在智能发现、 模型完善以及通用智能方向实现突破,继续保持其在AI领域的领先地位。作为关注AI发展的朋友,我 认为谷歌值得持续跟踪和关注。 谷歌作为AI领域的重要玩家,其发展历程和技术积累值得深入分析。谷歌母公司Alphabet的架构设计十 分巧妙,它将多个创新子公司独立运营,如Google、DeepMind、I ...
“多模态方法无法实现AGI”
AI前线· 2025-06-14 04:06
作者 | Benjamin 译者 | 王强 策划 | 褚杏娟 "将语言投射回思想模型时,我们忽视了支撑我们智能的不言而喻的具身认知。" 首先,虽然奥赛罗的移动可被证明用于推断奥赛罗棋盘的完整状态, 但我们没有理由相信有办法通 过语言描述推断出物理世界的完整画面 。将奥赛罗游戏与物理世界的许多任务区分开来的是, 奥赛 罗本质上位于符号领域,只是使用物理标记来实现,以便于人类玩耍 。一个完整的奥赛罗游戏可以 用纸和笔进行,但人们不能用纸和笔扫地、洗碗或开车。要解决这些任务,你需要超越人类用语言描 述的物理世界概念。这种描述世界的概念是否编码进了正式的世界模型中,或者例如编码进了一个价 值函数,还有待讨论, 但很明显,物理世界中有许多问题不能完全由符号系统表示并用纯粹的符号 操作解决 。 最近生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来。虽然这些模型似乎捕 捉到了人类智能的本质,但它们甚至违背了我们对智能最基本的直觉。它们之所以出现,并非因为它 们是解决智能问题的深思熟虑的解决方案,而是因为它们在我们已有的硬件上有效地扩展了规模。一 些人沉浸在规模扩展的成果中,开始相信这提供了通往 AGI 的 ...
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 12:02
01. 创业一年后,李飞飞如何阐述 World Labs 的愿景? 成立一年的World Labs 发布过什么进展?World Labs 的愿景有变化吗?空间智能终于有望解锁了?... 02 . 为什么没有空间智能的 AI 是不完整的? 本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 在近期由 a16z 普通合伙人 Erik Torenberg 主持的一场访谈中,李飞飞和 World Labs 早期投资者 Martin Casado 围绕「世界模型」和「空间智能」的话题探讨了她对 AI 技术的理解,并在创业 项目 启动一年后重新 介绍了 World Labs 的任务和愿景。 目录 2、李飞飞指出当前语言模型在描述和理解三维物理世界方面存在明显的局限性,空间智能则超越语言模型成 为智能的关键组件,是世界模型理解、重建和生成物理世界的核心能力。 ① 语言虽然是思想和信息的强大编码,但对 3D 物理世界而言是「有损的编码方式」,无法有效描述和操作三 维空间。而空间智能代表着更为古老和根本的智能形式,是 AI 的关键组成部分。 3、在这一认知框架下,World Labs 试图构建能理解 ...