多模态

Search documents
从多模态融合到行业深扎,国内 AI 大模型三大发展方向解析
Sou Hu Cai Jing· 2025-07-07 03:36
国内有众多 AI 大模型研发机构,如百度、阿里、字节跳动、科大讯飞等,从这些机构的实践来看,大模型主要有以下发展方向: ·行业深度赋能:科大讯飞计划将星火大模型从 "通用" 走向 "行业",深度赋能汽车、教育、医疗、智慧城市、赛事运营等产业。百度、阿里等公司的大模型 也在金融、工业、政府、科研、电商等领域积极探索应用,未来大模型会针对不同行业的特点和需求,进行定制化开发和优化,为各行业提供更专业、更精 准的服务,推动行业智能化升级。 ·智能应用创新:随着大模型技术的发展,将催生更多新型智能应用。字节跳动提出 "互联网正从 APP 时代进入 Agents 时代",其火山引擎发布的方舟平台 等系列工具,构建了服务 Agent 开发的完整体系,展现出 AI 重构软件开发范式的潜力,也催生了不少如他她它、推氪AI等的应用层面的产品。未来,大模 型将与更多新兴技术结合,创造出如智能助手、智能创作工具等更多创新应用,改变人们的生活和工作方式。 生态建设方向 ·开源共享:开源成为大模型发展的重要趋势。2025 年以来,字节豆包、百度文心、阿里通义千问等均推出开源模型。商汤科技发布了 LazyLLM 开源框架 等产品,Min ...
“反击”马斯克,奥特曼说OpenAI有“好得多”的自动驾驶技术
3 6 Ke· 2025-07-07 00:32
OpenAI的CEO山姆·奥特曼和特斯拉CEO马斯克的矛盾,已经是硅谷热门的八卦。 两人都是OpenAI的联合创始人,但是奥特曼将OpenAI转向商业化运营之后,马斯克指责其背离初心,并起诉他违背创始协议。另外,马斯克还成立xAI, 和OpenAI直接竞争。 奥特曼也奋起反击,公布邮件显示,马斯克试图掌控OpenAI,遭到拒绝后才不断阻挠。 奥特曼可能还酝酿了一个"以其之道还施彼身"的反击举措,那就是研发自动驾驶,和特斯拉FSD竞争。 最近,奥特曼在做客了自己兄弟杰克·奥特曼的脱口秀,不知是否和兄弟聊天说漏了嘴。 根据纽约时报旗下DealBook的消息,该技术尚处于早期阶段,商业化也还要很远。 他说: 我想我们有一些新技术,可以为普通汽车提供自动驾驶,而且比当前技术要好得多。 I think we have some new technology thatcould just do self-driving for standard carsway better than any current approach has worked. 这里说比"当前技术""好得多",当然也包括马斯克的FSD。 不过,奥特曼 ...
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...
AI和GEO技术在精准营销领域的未来发展趋势是怎样的?
Sou Hu Cai Jing· 2025-07-05 16:03
技术融合深化1:AI 大模型将与 GEO 技术更深度结合,利用其强大的语义理解和推理能力,对 GEO 数据进行更精准分析。同时,结合地理位置、天 气、社交热点等动态因素,实时生成情境化营销内容,为用户提供更贴合当下场景的营销信息。 个性化体验升级1:未来系统能够根据每位用户的交互历史构建专属知识模型,实现更高级别的个性化营销。基于用户的地理位置、行为习惯等,为用 户提供完全定制化的产品推荐和营销活动,进一步提升用户参与度和转化率。 多模态内容发展4:AI 搜索将更倾向于抓取图文、视频、3D 模型等多模态内容。品牌需构建包含多种内容形式的优化矩阵,通过为短视频添加文字摘 要、优化 3D 产品模型等方式,提升在 AI 搜索中的推荐优先级。 精准定位更精确:随着 GEO 技术的发展,地理位置定位将更加精准,能够实现厘米级甚至更高精度的定位。这将使营销人员可以针对更小的区域、 更特定的场所进行精准营销,如在商场内针对不同店铺区域的顾客推送个性化优惠。同时,结合 AI 对用户行为模式的分析,能预测用户在不同地理 位置的移动轨迹和消费需求,提前进行营销布局。 与其他技术协同创新4:AI 和 GEO 技术将与区块链、物联网 ...
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 05:53
本文的第一作者吴怡琳现为卡内基梅隆大学机器人学院二年级博士生,导师为 Prof. Andrea Bajcsy。她的研究聚焦于开放世界场景下的物体操控与机器人 终身学习。吴怡琳本科毕业于上海交通大学,并于斯坦福大学取得计算机科学硕士学位。她曾与 Prof. Pieter Abbeel、Prof. Lerrel Pinto、Prof. Dorsa Sadigh 及 Prof. David Held 等多位专家合作,开展可变形物体操控、双臂协作操作及辅助喂食机器人等方向的研究,获得过 ICRA 最佳论文,CoRL 的 oral 论文录用。目前,她正在 NVIDIA 西雅图机器人实验室参与暑期研究,继续推进具身智能模型在复杂场景下的可扩展性与部署能力。 第二作者田然是 UC Berkeley 即将毕业的博士生同时在 NVIDIA 担任研究科学家,研究方向致力于推动机器人基础模型在真实世界中实现大规模、安全、 可信的落地应用。他的研究系统性地探索了机器人基础模型在预训练、后训练到实际部署各阶段中所面临的安全与偏好对齐挑战。他的工作获得了多个最佳 论文和国际奖项的肯定,包括:世界人工智能大会 「 云帆奖 」 、高通创新奖 ...
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 04:03
Sekai团队 投稿 量子位 | 公众号 QbitAI LeCun、李飞飞力挺的世界模型,想要实现,高质量数据是关键,也是难点。 现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展: 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构 聚焦世界生成的第一步——世界探索 ,联合推出一个 持续迭代的高 质量视频数据集项目——Sekai (日语意为"世界") ,服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构 建一个动态且真实的世界,可供用户不受限制进行交互探索。 它汇聚了 来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角真实世界或游戏视频, 配有精细化的标签, 涵盖文本描述、地点、天气、时间、人群密度、场景类型与相机轨迹等重要信息。总的来说,具有视频质量高、视频时间长、视角多样、地域 丰富及多维度标签等特点。 团队还利用Sekai部分数据,训练了一个初步的交互式视频世界探索模型—— Yume (日语意为"梦")。Yume在输入图片的基础上,通过 交 互式键鼠操作 (移动、视角转动)自回归形式地控制生成视频。 构建Sek ...
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 02:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...
最后抢位!第二届全球医疗科技大会招商
思宇MedTech· 2025-07-04 13:34
思宇往期活动回顾: 首届全球眼科大会 | 首届全球骨科大会 | 首届全球心血管大会 | 首届全球医美科技大会 由思宇MedTech主办的 第二届全球医疗科技大会 , 将于2025年7月17日在北京中关村展示中心举行。作 为专注于医疗器械的高规格行业大会,企业参展不仅是一次线下交流,更是一次精准的品牌曝光机会。 大会 聚焦"前沿技术 · 从研发走向临床应用" 。目前, 招商已经开始, 展位有限,欢迎有意企业抓紧对接。 权益包括但不限于: 商务合作,联系方式如下。 # 大会概况 一、会议地点 : 中关村展示中心会议中心(北京市海淀区新建宫门路2号) 六、大会议程(拟) 工作微信号: suribot22 手机号: 13552754250 也可以直接联系主编赵清、Alice、Jacky、Ziana 等任何思宇团队的工作人员。 以下为思宇此前举办的大会展位示意图,供参考: 主题演讲 大会现场品牌展位 企业宣传资料发放 活动现场环节嵌入品牌标识 本次大会将邀请来自影像设备、AI平台、高值耗材、能量系统、材料技术等方向的上市公司、创业企业等,分 享 产品创新、技术落地、医工协同等方面的实践经验。 本届大会将重点探讨以下话题 ...
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 08:59
如果告诉你, AI 在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信 吗? 复旦 NLP 实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现: 游戏不仅是娱乐 工具,更是训练 AI 推理能力的宝贵资源。 Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning 论文链接: https://arxiv.org/abs/2505.13886 代码仓库: https://github.com/tongjingqi/Code2Logic 标题: 数据和模型: https://huggingface.co/Code2Logic 引言 高质量多模态推理数据的极度稀缺,制约了视觉语言模型( VLMs )复杂推理能力的提升。那么,有 没有一种低成本又可靠的方法来大规模生成这些数据呢? 复旦与字节的研究团队创新性地提出了一个巧妙的思路: 利用游戏代码自动合成视觉推理数据。 | A | ਟ | E | ч | 0 | - | | --- | --- | --- | --- | --- | ...
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 07:13
⼀、课题简介⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动 态扩展和复杂推理三大方向的关键技术。 课程将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法;在知识 扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方面,研究 链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多模态理解 等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、课程目的 三、招生人数⭐ 6⼈/期(⾄多8人) 四、招生对象⭐ 五、课程收获 解决 ...