多模态 - filings, earnings calls, financial reports, news

多模态

Search documents

具身智能之心· 2025-06-27 09:41

EI/中文核心/毕业论文/申博等点击下方卡片，关注" 具身智能之心 "公众号还在为论文选题抓耳挠腮？被数据建模折磨到头秃？面对导师批注手足无措？别慌！具身智能之心，资深导师团队在线 "救援"，一站式解决你的论文烦恼！【前沿论文辅导重磅上线！多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区你是否正在研究以下前沿领域却苦于突破瓶颈？多模态大模型（视觉-语言预训练、跨模态推理）视觉语言动作（VLA）（端到端、分层等）视觉语言导航（VLN）（Embodied QA、指令跟随、场景理解）机器人抓取与导航（Sim2Real、强化学习、3D场景建模）具身智能体泛化（跨任务迁移、零样本适应、仿真环境构建） 3D高斯泼溅（3DGS）（实时渲染、动态场景建模、SLAM结合）端到端具身智能体（决策闭环、多模态传感器融合）具身合成数据生成（自动标注、域适应、数据增强）为什么选择我们？ ✅ 顶会/顶刊导师团队：来自CMU、Stanford、MIT等名校的PhD及大厂研究员，覆盖ICRA、NeurIPS、C ...

之心急聘！25年业务合伙人招聘，量大管饱~

自动驾驶之心· 2025-06-27 09:34

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线业务合伙人你好啊，我们是自动驾驶之心。很开心你能点进来！如果你也认同内容可以改变世界，那你可能就是我们在找的人！如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向，欢迎加入我们；岗位要求 QS200以内高校，硕士及以上学历，手握顶会的大佬优先。待遇说明自动驾驶资源共享（求职、读博、出国留学推荐等）；自动驾驶之心业务合伙人招募来啦！我们团队今年计划向国内外招募10名优秀的合伙人，负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发；主要方向丰厚的现金激励；创业项目合作与推荐；联系我们更多欢迎添加微信咨询，备注" 机构/公司 + 自动驾驶合作咨询 "。 ...

基于VLM的快慢双系统自动驾驶 - DriveVLM解析~

自动驾驶之心· 2025-06-27 09:15

基于此DriveVLM主要有以下几个创新点：点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线近一年来，大模型的发展突飞猛进，大模型应用于各个下游任务的工作也层出不穷，今天和为大家分享清华&理想将大模型应用在自动驾驶领域的一次尝试与探索，也是去年理想快慢双系统（E2E+VLM）的核心算法，利用大模型强大的few-shot能力，期望解决实际驾驶场景中的长尾问题，提升自动驾驶系统的认知和推理能力。 DriveVLM主要的出发点来自于目前业界自动驾驶遇到的实际困难，随着智能驾驶逐渐从 L2 往 L4 迭代，在实际场景中遇到了各种各样的长尾问题。这些长尾问题随着数据驱动的方式会逐渐收敛一些，这也是目前业界主流的思路和方法，期待通过数据驱动的方式逐渐毕竟 L4；但是大家随着研究的深入发现，真实场景中的长尾问题是无穷无尽的，只是 case by case 的数据驱动几乎无法进化到真正的 L4 无人驾驶。因此，工业界和学术界需要进一步思考自动驾驶的下一代方案。而数据集构建可以说是这篇工作最核心的内容，主要聚集自动驾驶场景关心的五个维度，下面一一展开介绍： Ch ...

清华大学最新综述！具身AI中多传感器融合感知：背景、方法、挑战

具身智能之心· 2025-06-27 08:36

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Shulan Ruan等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。出发点与动机 1）具身AI与多传感器融合感知的重要性近年来，随着深度学习和大型语言模型（LLM）的快速发展，人工智能在各个领域取得了显著进展。具身 AI作为AI的重要方向，指的是以物理实体为载体，通过在动态环境中实时感知来实现自主决策和行动能力的智能形式，在自动驾驶、机器人群体智能等领域有广泛应用场景，是突破AI发展瓶颈、实现通用人工智能（AGI）的关键路径。在具身AI系统构建中，传感器数据理解是连接物理世界与数字智能的核心环节。具身智能体需要融合视觉相机、毫米波雷达、激光雷达（LiDAR）、红外相机和惯性测量单元（IMU）等多模态传感器数据，以实现对环境的全景感知。多传感器融合感知（MSFP）对实现具身AI的稳健感知和准确决策能力至关重要，例如视觉相机易受光照变化干扰，而激光雷达在雨雾天气性能会大 ...

OpenAI连丢4位大将！Ilya合作者/o1核心贡献者加入Meta，苏黎世三人组回应跳槽：集体做出的选择

量子位· 2025-06-27 08:09

梦晨发自凹非寺量子位 | 公众号 QbitAI 扎克伯格未免有点太针对奥特曼了！又有OpenAI核心研究员被挖走，而且做的是最前沿推理大模型。最新跳槽到Meta的是 Trapit Bansal ，他在2022年加入OpemnAI，曾与Ilya合作，在大模型强化学习研究的启动过程中发挥了关键作用，也被列为 o1的核心贡献者。 △ Trapit Bansal 加入Meta后，Trapit Bansal在新成立的超级智能部门继续研究推理大模型。 Trapit Bansal博士毕业于马萨诸塞大学阿默斯特分校。毕业后他加入OpenAI，与Ilya合作启动了强化学习在推理大模型上的研究。目前他在谷歌学术上有2800+被引用数量，多篇论文与Ilya合著。读博期间他就在OpenAI实习过，参与了多智能体强化学习研究：通过自我对弈让AI发现新的技能，无需专门为这些技能设计奖励。 | Trapit Bansal | | FOLLOW | | GET MY OWN PROFILE | | | --- | --- | --- | --- | --- | --- | | OpenAl | | | | | | | ...

Meta Platforms(US:META)

多模态

强化学习

Artificial Intelligence

Artificial Intelligence

ViT架构

语音Agent

人形机器人行业深度报告：灵巧手持续迭代，关注技术路线收敛中的边际增量

Soochow Securities· 2025-06-27 07:32

证券研究报告灵巧手持续迭代，关注技术路线收敛中的边际增量 ——人形机器人行业深度报告证券分析师：黄细里执业证书编号：S0600520010001 证券分析师：郭雨蒙执业证书编号：S0600525030002 二零二五年六月二十七日请务必阅读正文之后的免责声明部分报告核心观点 2 ◼下游场景推动灵巧手向仿人手迭代，市场前景广阔。2024 年灵巧手市场规模达 17.06 亿美元，预计 2025/2030 年将增至 19.21/30.36 亿美元。工业机器人常用二指灵巧手执行简单夹取，人形机器人需求促使其向 4 指 / 5 指及高自由度发展。 ◼从驱动方案来看，欠驱动、外置/混合置+电驱为主流，电机或由空心杯向无刷有齿槽切换。具体来看，1）欠驱动靠牺牲精度来降本和加速落地，应用更为广泛；2）外置驱动器和混合置牺牲一定精度短期简单场景落地更快。3）电驱动因模块化设计、精度高等特点为当前主流方案。 4）特斯拉第三代灵巧手以无刷有齿槽电机替换部分空心杯电机，电机方案或将切换。 ◼传动方案涵盖齿轮/蜗轮蜗杆、连杆、丝杠、腱传动杆四类，各有优劣，均可映射至实际产品。其中，腱绳+丝杠复合传动可在保证灵活性 ...

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

机器之心· 2025-06-27 00:49

余天予，清华大学计算机系一年级博士生，导师为清华大学自然语言处理实验室刘知远副教授。研究兴趣主要包括高效多模态大模型、多模态大模型对齐和强化学习，在 CVPR、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文，谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward，基于可验证奖励的强化学习）的巨大潜力。然而，现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性，依赖规则验证器的方法难以拓展到通用领域上。针对这一关键挑战，清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强化学习（Reinforcement Learning with Reference Probability Reward， RLPR ）。这项技术通过 Prob-to-Reward 方法显著提高了概率奖励（Probability-based Reward, PR）的质量，相比基于似然度的基线方法取得了明显更佳的性 ...

强化学习

多模态大模型

自然语言处理

Artificial Intelligence

Artificial Intelligence

RLPR

RLVR

计算机行业重大事项点评：MiniMax：推理模型、Agent与多模态

Huachuang Securities· 2025-06-26 11:04

证券研究报告计算机行业重大事项点评 MiniMax：推理模型、（维持） Agent 与多模态事项： ❑ 6 月 17 日，MiniMax 连续五天推出 AI 新品，涉及新的推理模型、视频生成模型、Agent、语音设计等产品。在发布周首日开源 MiniMax-M1 模型，次日上线海螺 AI 视频生成模型，后续发布语音设计工具，覆盖推理、视频生成、智能体等新工具。评论：行业研究计算机 2025 年 06 月 26 日推荐华创证券研究所证券分析师：吴鸣远邮箱：wumingyuan@hcyjs.com 执业编号：S0360523040001 行业基本数据 | | | 占比% | | --- | --- | --- | | 股票家数(只） | 338 | 0.04 | | 总市值(亿元） | 42,064.50 | 4.18 | | 流通市值(亿元） | 36,270.94 | 4.60 | 相对指数表现 | % | 1M | 6M | 12M | | --- | --- | --- | --- | | 绝对表现 | -2.8% | -7.9% | 35.9% | | 相对表现 | ...

Meta Platforms成功挖角OpenAI三名核心研究员

Sou Hu Cai Jing· 2025-06-26 08:02

此次被挖角的团队包括Lucas Beyer、Alexander Kolesnikov和翟晓华（Xiaohua Zhai），他们此前均隶属于OpenAI苏黎世办公室，并在计算机视觉与多模态AI领域拥有深厚积累。 6月26日消息，据华尔街日报报道，全球科技巨头Meta Platforms（NASDAQ:META）在人工智能领域的人才争夺战中再下一城，成功从OpenAI挖走三名重量级研究员，进一步加剧了AI行业的技术竞争。图源：IC OpenAI发言人证实了三名研究员的离职，但强调公司核心团队保持稳定。CEO山姆·奥尔特曼（SamAltman）此前在播客中透露，Meta曾试图以1亿美元签约奖金挖角OpenAI员工，但遭到拒绝。他指出，Meta的"高薪策略"可能分散团队注意力，不利于构建创新文化。行业分析师认为，Meta的激进招聘策略反映了其在AI领域的焦虑。尽管Meta通过投资ScaleAI等公司积累了大量资源，但其Llama系列大模型的性能未达预期，最新旗舰模型发布计划多次推迟。此次挖角或有助于Meta缩小与OpenAI在多模态AI领域的技术差距。 Meta的此次挖角能否转化为技术优势仍待观察。行 ...

人工智能

多模态AI

Artificial Intelligence

Llama系列大模型

人工智能

多模态AI

Artificial Intelligence

Llama系列大模型

国产大模型高考出分了：裸分683，选清华还是北大？

量子位· 2025-06-26 06:25

金磊发自凹非寺量子位 | 公众号 QbitAI 这两天啊，各地高考的成绩终于是陆续公布了。现在，也是时候揭晓全球第一梯队的大模型们的"高考成绩"了—— 我们先来看下整体的情况（该测试由字节跳动Seed团队官方发布）：按照传统文理分科计分方式，Gemini的理科总成绩655分，在所有选手里排名第一。豆包的文科总成绩683分，排名第一，理科总成绩是 648分，排名第二。再来看下各个细分科目的成绩情况： | 模型 | 语文 | 数学 | 英语默认听力满分 | 物理 | 化学 | 生物 | 地理 | 历史 | 政治 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 满分 | 150 | 150 | 150 | 100 | 100 | 100 | 100 | 100 | 100 | | Doubao-Seed-1.6-Thinking | 128 | 141 | 144 | 90 | ਦਰ | 76 | ਰੇਖੋ | 92 | 84 | | Gemini-2.5-Pro-0605 | 126 | 140 | 141 | ...