多模态

Search documents
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究 仍然是一件十分有意义的事情。 清华大学自动化系鲁继文团队 最近发表于 IJCV 的综述论文系统梳理 了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望 能为未来视觉模型的发展提供参考与启发。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视 觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建 模,视觉的「独立性」正在被重新定义。 在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐 被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有 结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处 理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检 测等不同任务?这些问题在当前的多模态范式中并未被充分解决。 论文标题: Vision Gener ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 12:07
核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理,生成安全、合 理、可解释的行动序列。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支 ...
解构大模型投资迷雾:硅兔君与四位硅谷AI巨头核心专家的闭门会议深度纪要
3 6 Ke· 2025-07-01 10:15
如何看透大模型(LLM)的投资逻辑?硅兔君组织了一场与硅谷AI巨擘的闭门会议。本文揭示多模态AI应 用、商业化路径及中美技术差异的一手洞察。 作为长期观察和记录硅谷创新脉搏的硅兔君,我们深知,在生成式AI引发的全球浪潮中,公开信息与 产业真相之间存在着巨大的鸿沟。每日都有新的模型发布,每周都有新的融资新闻,但真正的决策依 据,绝非仅仅来自新闻稿或分析报告。 为了穿透表层,触及产业脉搏的真实跳动,硅兔君近期为一家国内顶级的券商研究院及头部公募基金团 队,组织了一场深入美国硅谷核心地带的闭门交流会。我们有幸邀请到四位身处全球技术风暴中心的 AI专家——他们分别来自Google(深度参与Gemini等多模态模型研发)、Meta(主导GenAI在广告推 荐系统的落地)、Apple(领导大模型底层架构训练),以及一家国际电商巨头(负责用AI驱动数十亿 美元营收)。 这并非一次泛泛的趋势分享,而是一场关于技术落地、商业挑战和投资逻辑的深度碰撞。本文将结合最 新的行业发展,为您深度复盘此次会议的核心亮点。 亮点一:多模态AI (Multimodal LLM) —— 从技术前沿到产业应用的确定性革命 当市场还在消化纯文本大模 ...
赛道Hyper | 百度开源ERNIE 4.5:策略是什么?
Hua Er Jie Jian Wen· 2025-07-01 09:39
但百度创始人、董事长兼CEO李彦宏曾在2024年的WAIC(世界人工智能大会:World Artificial Intelligence Conference)上,认为开源大模型是"智商税"。 从参数覆盖到工具适配 百度此次开源的10款模型,形成了从0.3B到47B参数的梯度覆盖,囊括基础文本模型和视觉多模态模型 (VLM)。除最小的0.3B 模型外,其余模型都采用异构多模态MoE(专家混合模型:Mixture of Experts)架构。 对于算力有限的中小开发者,0.3B参数的稠密型模型可降低部署门槛,MoE模型则能满足企业级复杂任 务的需求。这种分层供给思路,让不同资源条件的使用者都能找到适配的工具。 作者:周源/华尔街见闻 6月30日,百度正式开源文心大模型4.5系列(ERNIE 4.5),涵盖10款不同参数规模的模型,包括47B (470亿)、3B(30亿)激活参数的混合专家(MoE)模型及0.3B(3亿)参数的稠密型模型,预训练 权重与推理代码均完全开放。 目前,这些模型已可在飞桨星河社区、HuggingFace等平台下载,百度智能云千帆大模型平台也同步提 供了API(应用程序编程接口:Appli ...
AI开发工具领域正经历重要变革,科创100指数ETF(588030)午后翻红上扬,近2周规模增长显著
Xin Lang Cai Jing· 2025-07-01 06:19
截至6月30日,科创100指数ETF近6月净值上涨13.69%,指数股票型基金排名416/3427,居于前12.14%。从收益能力看,截至2025年6月30日,科创100指数 ETF自成立以来,最高单月回报为27.67%,最长连涨月数为3个月,最长连涨涨幅为37.87%,上涨月份平均收益率为8.57%。截至2025年6月30日,科创100 指数ETF近3个月超越基准年化收益为0.92%。 截至2025年7月1日 13:58,上证科创板100指数(000698)上涨0.30%,成分股荣昌生物(688331)上涨10.76%,心脉医疗(688016)上涨8.22%,泽璟制药(688266)上 涨7.26%,神州细胞(688520)上涨5.56%,芯源微(688037)上涨4.96%。科创100指数ETF(588030)上涨0.30%,最新价报1.02元。拉长时间看,截至2025年6月30 日,科创100指数ETF近1周累计上涨3.99%。 流动性方面,科创100指数ETF盘中换手3.52%,成交2.22亿元。拉长时间看,截至6月30日,科创100指数ETF近1年日均成交4.02亿元,排名可比基金第一。 人工智能开 ...
不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵
量子位· 2025-07-01 03:51
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 技术节早就不是走过场的科技圈装饰品了。 放眼中外,谁家技术底子硬、AI方向稳,基本都要拿一场技术节出来亮家底。 谷歌的I/O,是工程文化的集体涌现;苹果的WWDC,是产品哲学的年度布道;上海的WAIC,是产业方向与时代命题…… 而另辟蹊径的 淘天集团 ,连续办起一个名字听着就不走寻常路的技术节—— 硬核少年技术节。 今年6月30日至7月4日,硬核少年技术节已经办到第四届了, 并且在北京、杭州两地同步举办 ,一如既往不讲排场,讲真章。 不搞传统那一套 虽然这已经是淘天集团第四次办技术节,但依然年年起新潮,肉眼看得到的自我进化。 不变的是,今年为期一周的"硬核少年技术节4.0"依旧靠的是技术人自己一场场讲、一项项做,把能跑、能用、能打赢的技术成果摆上台。 当然,每一届都有新意。 今年尤其体现在落地形式更丰富、更贴着地表,分为AI展示场、AI交流场、AI开放场、AI比赛场,把技术铺展开来 。 其中,除了AI开放场的OpenDay在一众技术节上比较常见之外,其它的AI场设置都好玩又有料。 具体我们一一来看。 AI展示场-技术市集 AI展示场是一个巨大的技术市集。 ...
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 03:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 没错,这就是阿里通义语音团队最新开源的 泛音频生成模型ThinkSound ,主要用于视频配音,主打 让每一帧画面都有专属匹配音效 。 据介绍,它首次将今年大热的 CoT思维链推理 引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的 动态细节和空间关系的难题。 AI音效已经进化成这样了吗?? 打开声音 ,来快速感受一下最新feel: 模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。 一辆火车由远及近驶来,整个背景音也颇具空间层次感,毫不违和。 甚至连小号这种乐器演奏,声音也能和演奏者的动作一一对上。 就是说,AI现在也能像专业音效师一样逐步思考,通过捕捉视觉细节来生成音画同步的高保真音频。 官方测评显示,ThinkSound在业界知名的音视频数据集VGGSound上,对比6种主流方法 (Seeing&Hearing、V-AURA、FoleyCrafter、 Frieren、V2A-Mapper和MMAudio) ,在核心指标上均实现了显著提升。 | Method | | | | Objective ...
赛道Hyper | 通义千问推出多模态模型Qwen VLo
Hua Er Jie Jian Wen· 2025-07-01 02:58
在这个过程中,模型不断对预测内容调整优化,比如生成风景图时,先勾勒山川河流轮廓,再细化树 木、花草等细节,确保画面在结构、色彩、语义等方面和谐统一。 这种生成机制给用户更灵活、可控的创作体验,设计师创作海报时,可实时观察生成过程,及时调整不 协调部分,让创作更贴合预期。 作者:周源/华尔街见闻 阿里云在中国生成式AI基础设施登顶。 据IDC刚刚发布的最新报告显示,2024年中国AI基础设施(AI IaaS)市场份额,阿里云占比23%,位列 中国市场第一,超过第二名和第三名总和;在生成式AI基础设施领域,阿里云取得模型训练和模型推 理市场的双项冠军。 阿里云的生成式推理模型迭代频繁,动作很多。 6月27日,阿里云通义千问推出多模态统一理解与生成模型Qwen VLo,用户可通过Qwen Chat (chat.qwen.ai)体验。 这一模型在人工智能领域传承与创新,为多模态人工智能发展带来新探索,具备理解和基于理解进行再 创造的能力。 Qwen VLo采用渐进式生成方式,在生成图像时从左到右、从上到下逐步构建画面。 Qwen VLo通过提升细节捕捉能力,在生成中保持较高语义一致性。 当用户输入汽车照片并要求"将颜 ...
【公告全知道】稳定币+区块链+移动支付+国企改革!公司部分技术可应用于稳定币领域
财联社· 2025-06-30 15:00
每周日至每周四推送股市重大公告!内容包含"停复牌、增减持、投资中标、收购、业绩、解禁、高送 转"等一系列个股利好利空公告,其中重要公告均以红色标注,帮助投资者提前寻找到投资热点,防范 各类黑天鹅事件,并且有充足的时间进行分辨和寻找合适的上市公司。 ①稳定币+区块链+移动支付+国企改革!这家公司部分技术可应用于稳定币领域;②军工信息化+算力租 赁+国产芯片+区块链+无人机+华为!这家公司多年来为国防军工提供定制和配套信息化和智能化相关嵌 入式产品与服务;③脑机接口+人形机器人+无人驾驶+多模态AI!公司获得脑机接口数百万元的订单,签 订人形机器人产品销售框架合同。 前言 ...
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
具身智能之心· 2025-06-30 12:21
技术驱动与应用牵引的双重作用下,2025年具身智能产业呈现爆发式的增长,这些趋势不仅塑造着 行业的技术路线,也深刻影响着商业化落地的路径与节奏。这里也为大家盘一下这两年具身重点关 注的技术领域。 感知能力升级与多模态融合是具身技术路线发展的重要一环,在视觉感知之外,触觉感知则是这两 年发力的重点,特别是灵巧手领域,力控能大幅提升操作的精细度及结果反馈能力。多模态传感器 融合技术使机器人能够同时处理视觉、听觉、触觉等多种信息,这种融合不仅体现在硬件层面,更 在于算法层面的深度整合。大幅提升了环境感知的准确性和全面性。 大模型驱动的大脑算法正在不断地提升机器人对世界的经验认知与理解。特别是在人形机器人领 域,大模型基于多模态数据提升机器人的感知能力,推动机器人的自主学习、决策规划能力,并结 合动作训练、行为交互训练,有望提升动作的泛化能力。同时,轻量化的模型设计也成为行业落地 的迫切需求,我们更需要低算力、多模态、跨平台的轻量化模型作为支撑! 同时,仿真环境与数据生态建设也极为重要!仿真环境与世界模型的持续完善为具身智能提供了高 效的训练平台。基于对物理世界的规律认知经验,利用仿真平台进行物体运动、形变,环境的光 ...