Workflow
多模态
icon
Search documents
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-07-12 05:41
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 业务合伙人 创业项目合作与推荐; 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 04:57
清华大学团队 投稿 量子位 | 公众号 QbitAI 近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的"看懂"并"想通"了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策? 为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出 EscapeCraft:一个3D密室逃脱环境 ,让大模型在3D密室中通过自由探索寻找道具,解锁出口。 该论文目前已入选ICCV 2025。 EscapeCraft 环境 沉浸式互动环境,灵感源自密室逃脱 研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱 子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。 任务可扩展,应用无限可能 EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房 间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个 高度灵活、 可持续迭代的通用评测平台 ,也可以为未来的智能体、多模态推理、强化 ...
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 02:11
作者简介:由来自北 京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博 士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身 智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考: 在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港 中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。不同 之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预 训练视觉 - 语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与 异步运行频率的策略,使得 FiS-VLA 既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真 机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率,大幅领先于 现有主流方案,展示了其广阔的实际应用潜力。 论文链接: https://arxiv.org/pdf/2506.01953 项目 ...
百度2026届校招重注AI,超4000份Offer,应届生直接触核心研发!
Sou Hu Cai Jing· 2025-07-12 00:03
在AI领域持续发力的百度,近日正式拉开了2026届校园招聘的大幕,此番招聘规模空前,共提供了超过4000个工作岗位,其中AI相关职位的比例高达九 成,这一数字无疑是国内互联网巨头在校招中对AI人才最为重视的一次体现,也标志着AI技术正加速从理论探索走向商业应用的广阔舞台。 本次校招活动覆盖了包括北京、上海、深圳、成都等在内的七大城市,百度不仅扩大了招聘范围,还特别增设了90个AI领域的全新职位,专注于多模态、 跨模态以及大模型架构等前沿技术的探索。对于即将走出校门的应届生而言,他们将有机会直接参与到百度文心大模型、飞桨平台、数字人项目等核心产品 的研发中,这无疑为他们提供了一个极高的职业起点。 从国内AI产业的发展现状来看,互联网巨头们在AI领域的竞争已经日益激烈,形成了多维度、多层次的战略布局。百度凭借其全栈AI能力,在智能云市场 表现出色,2025年上半年,百度智能云在大模型相关项目的招投标中,以48个中标项目和5.1亿元的金额位居行业前列。在金融、能源、政务等多个领域, 百度都取得了显著的成果,65%的央企选择与百度进行深度合作。 百度还构建了包含三万台昆仑芯集群的算力底座,为招商银行等企业提供了稳定、 ...
Grok-4,马斯克口中地表最强AI
Sou Hu Cai Jing· 2025-07-11 12:58
撰文 / 涂彦平 编辑 / 黄大路 2025年7月10日,马斯克旗下xAI公司发布了AI模型Grok-4。这个被他称为"世界上最聪明的AI"在各个AI基准测试中开 启了屠榜模式。 先说说xAI,这家公司2023年7月12日成立,到今天将将两年。 公司创立之初,马斯克曾表示,构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以用AI去帮助人们 解决复杂的科学和数学问题并且理解宇宙。 2025年1月16日,xAI上线推出网页版Grok AI聊天机器人。2月17日,xAI发布Grok-3聊天机器人。然后是刚刚,发布了 新一代Grok-4大模型。 目前,Grok-4已经开启订阅。Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,前者月费30美元,后者月费300美元。 这是目前最昂贵的AI订阅计划。Grok-3则维持免费开放。 设计 / 柴文静 失之东隅,收之桑榆。这句话放在马斯克身上再贴切不过了。 灰溜溜从白宫离开,与特朗普撕破脸,被大而美法案背刺,气得建立美国党,想玩政治反被政治玩。换个人都得自闭 了,但老马转头就在AI赛道上搞了把大的。 这个被马斯克自己视作地表最强的AI究竟是什么成色 ...
驾驭工业场景挑战!灵心巧手即将推出全新“工业大师”灵巧手
机器人大讲堂· 2025-07-11 10:35
随着人形机器人在 2025年迎来量产元年,灵巧手落地应用的新元年也即将到来。在不同场景的探索推进下 ,工业灵巧手已 率先 从 设计初探迈 入 落地 战场 —— 工业生产半开放 场景 属性下的 标准化 、 高精度刚 需,正成为 灵巧手落地 的理想试验场。 针对灵巧手市场低自由度深度内卷的固有格局,灵心巧手推出的 Linker Hand系列灵巧手在国内率先开辟了 高自由度灵巧手市场,推动 灵巧手 产品和技术进入 前所未有的加速发展 时期。主售产品 Linker Hand L10、L20以及L30均实现20个以上的自由度,并展现出优良的精度和性能表现,高自由度赋予的高灵活性可 支持灵巧手完成更加复杂的人手工作,拥有更高的泛化性,适配不同的工业生产任务。目前Linker Hand系列 产品已收获广泛的市场认可,实现月订单过千。 工业 场景对灵巧手有着高自由度、高灵活性、高负载能力等直接需求,灵心巧手驱动技术路线延伸,专门针 对工业场景进行高性能灵巧手研发。面向不同需求层级,灵心巧手即将推出两款高自由度 "工业大师"灵巧手 ——Linker Hand L6与L20工业版。其中,Linker Hand L6工业版具有6个 ...
新股消息 | 传智谱考虑将IPO地点由内地改为香港 或筹集约3亿美元
智通财经网· 2025-07-11 08:31
智通财经APP获悉,据报道,智谱考虑将其首次公开募股(IPO)计划的地点由内地改为香港。知情人士 表示,该公司正在与财务顾问就潜在的IPO交易进行合作,可能筹集约3亿美元(约23.4亿港元),相关事 宜仍在考虑中,尚未做出最终决定,包括规模在内的细节可能会发生变化。智谱最终也可能选择在内地 上市。对此,智谱代表未回应置评请求。 值得注意的是,上市辅导前夕,智谱密集收获了多地国资的战略投资。7月2日,智谱宣布,浦东创投集 团和张江集团对智谱投入总额10亿元的战略投资。此外,上海仪电、浦发集团、智谱三方将携手在浦东 建设人工智能新型基础设施。同日,智谱还正式发布并开源了视觉语言大模型GLM-4.1V-Thinking。据 悉,GLM-4.1V-Thinking是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认 知任务设计。智谱还宣布推出全新生态平台"Agent应用空间",并开启"Agents开拓者计划",投入数亿 资金全方位扶持AI Agents创业团队。 另外,今年3月3日,智谱宣布完成一笔超过10亿元的战略融资,参与者包括两家来自DeepSeek总部所 在地的杭州的国资——杭州城投产业基金及 ...
报名开启|7月27日,世界人工智能大会腾讯论坛邀您共探AI新纪元
腾讯研究院· 2025-07-11 07:20
2025年,人工智能将如何进一步突破认知的极限?又将怎样更深刻地助力千行百业,并塑造我们共同的 科技未来? 7月27日,由世界人工智能大会组委会指导, 腾讯华东总部、腾讯优图实验室主办,腾讯研究院、腾讯 科技、腾讯云智能、腾讯Robotics X实验室、腾讯SSV为村发展实验室、腾讯游戏VISVISE、QQ浏览 器、ima及搜狗输入法 等共同支持的 2025世界人工智能大会腾讯论坛 将在 上海 举办。 当科技的浪潮奔涌向前,人工智能正以超乎想象的速度重塑世界。从早期的理论设想,到如今成为变革 世界的核心力量,AI 不再是高悬于科幻云端的概念,已然化作 生活中无处不在的贴心助手 ,驱动着产 业升级、革新用户体验、重构人机协同,在诸多领域展现出令人瞩目的突破性潜能。 2024 年,我们共同经历了生成式AI的深化融合与爆发式应用。以多模态大模型和具身智能为代表的科 技新范式不断涌现,不仅拓宽了AI能力的边界,更深层次地加速了智能与人类社会的共生进程,为人工 智能的发展书写激动人心的新篇章。 今年, 我们将以"智能涌现"为主题, 聚焦全球AI技术与产业深度融合趋势,围绕"大模型垂直落地、场 景创新突破、生态共建协同" ...
科创AIETF(588790)上涨1.78%,近一年日均成交额跑赢同类产品,机构:多模态大模型和应用发展的奇点将至
Xin Lang Cai Jing· 2025-07-11 05:43
消息面上,2025年7月8日至11日,人工智能向善全球峰会在瑞士日内瓦召开。中国移动展示了九天大模型平台等AI解决方案。该平台可实现云端、边缘 侧、端侧全场景灵活部署,已在客服、航空等多个领域落地。同时,还展示了"AI+高标准农田""AI+超脑平台"等应用,助力农业生产与城市治理。 华泰证券认为,多模态大模型和应用发展的奇点将至。判断依据包括:1)技术进步方面:原生多模态模型架构得到业界认可,OpenAI和Google的原生多模 态模型已经在性能、延时、部署上展现出优势。2)商业化进展方面:全球维度看,除了最头部的OpenAI和Anthropic依靠模型"智能"实现商业化,相当一部 分AI应用公司的商业化产品依赖多模态能力。国内维度看,国内公司在视频生成赛道已经实现了较成熟的全球化和商业化之路。与市场不同的观点在于, 1)更早认识到原生多模态架构将成为主流;2)AI商业化不能仅聚焦在二级公司,更要关注全球维度一级公司的进展。 规模方面,科创AIETF最新规模达44.48亿元,创成立以来新高,位居可比基金1/7。 份额方面,科创AIETF最新份额达79.33亿份,创成立以来新高,位居可比基金1/7。 资金流入方 ...
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线· 2025-07-11 05:20
"情智兼备"是新一代人工智能的重要发展方向,是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态 交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人机对话。然而,面对多模态情感数据语义的高度复杂性,如何有效建模跨模 态关联关系仍是领域内亟待突破的核心挑战。 针对这一技术瓶颈,快手可灵团队与南开大学在「多模态情感理解」领域完成了开创性研究,成功定位了现有多模态大模型在情感线索捕捉中的关键短 板。研究团队从多模态注意力机制的维度切入,提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型'摩达 (MODA)'。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的 21 个基准测试中均实现了显著性能提升。此 外,基于新的注意力机制,'摩达'在角色剖析与规划演绎等人机交互场景中表现出色。目前,该研究成果已被 ICML 2025 收录,并获选焦点论文 (Spotlight,Top 2.6%)。 论文标题:MODA: MOdular Duplex Attention for Multimodal Percep ...