Workflow
多模态大模型
icon
Search documents
阿里巴巴集团副总裁许主洪:多模态大模型是通往AGI的关键路径|直击MWC上海2025
Guo Ji Jin Rong Bao· 2025-06-19 10:48
许主洪进一步分享道,多模态理解模型主要基于自回归的模型框架,相比之下,多模态生成模型则更多地采用基于扩散的模型框架,利用如UNet和DiT 等架构,以及CLIP和T5等先进的文本编码器。 根据许主洪预测,未来多模态大模型将朝着理解与生成相统一的方向发展,但同时也指出主干网络设计、模态对齐融合等关键技术仍需深入研究。尽管 行业整体仍处于早期阶段,不过其对多模态技术在搜索、创作、机器人等领域的应用前景充满信心。 "多模态agent AI的时代才刚刚开始,未来我们要真正达到AGI,还是要解决非常多的技术难题,包括多模态大模型基础的能力,数据细节的连接与操 作,物理世界的控制与交付等等,都有很多的技术挑战,但这也是未来多模态大模型行业机会。"6月19日,在上海世界移动通信大会(MWC上海2025) 上,阿里巴巴集团副总裁,智能信息事业群首席科学家发表主题演讲,深入阐述了多模态大模型技术的发展趋势及其在实现通用人工智能(AGI)中的核心 作用。 在演讲中,许主洪将多模态大模型技术分为理解与生成两大类,并系统梳理了技术演进路径。他指出,多模态的理解任务,主要解决的难点包括多模态 的模态编码对齐、融合的理解与推理等等;多模 ...
发球机器人进化,“AI刘国梁”走到哪一步了?
Di Yi Cai Jing· 2025-06-18 13:40
随着具身智能大模型的发展,传统的发球机器人正在变得"更像教练"。不过,企业想要真正培养出一个 AI教练,仍然需要面对一个长期的市场拉锯。 在乒乓球桌的一角,一台外形酷似工业机器人的发球机器人,正在做着发球前的最后准备。基于用户选 择的训练模式,系统程序里的路径规划模块正在转换关节角度,力矩控制模块也在调整球拍倾角至 15°,准备模拟运动员马龙经典发球的抛物线轨迹。 第一财经记者在模拟的比赛现场看到,随着具身智能大模型的发展,传统的发球机器人正在变得"更像 教练"。和上一代的发球机器人不同,它不仅会"打",更试图像"教练"那样思考与反馈。一位研发者告 诉记者,自己正在试图把这款产品打造成配备"体育界ChatGPT"的具身智能产品,让使用者在训练中的 感受如同接受"AI刘国梁"的专业指导一样。 不过,第一财经记者采访AI硬件工程师、俱乐部教练等人后了解到,从"懂球"到"懂人",企业想要真正 培养出一个AI教练,仍然需要面对一个长期的市场拉锯,通过技术降低使用门槛、提供智能化的配套 服务扩大客群边界,都是企业想要跑通教练型发球机器人商业闭环的关键课题。 比真人陪练便宜一半 "我们俱乐部从去年开始购入了一台发球机器人 ...
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 03:03
辅导老师介绍 老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议上发表论文,有较丰富的 指导经验。 学员要求 自带一份简历,学校背景:国内TOP100高校,国外QS200以内; 具身智能之心论文辅导正式推出啦!去年的成果还算不错,几个同学中了CVPR和ICRA等会议, 今年和老师们沟通过后,准备继续辅导几名同学冲下顶会,感兴趣的同学可以咨询,辅导方向如 下。 主要方向 更多咨询 多模态大模型,VLA、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能 体、3DGS等方向; 详细内容欢迎添加微信:oooops-life,做进一步了解。 ...
京东今年向应届生提供1.8万余个岗位
转自:北京日报客户端 记者近日从京东获悉,今年该公司将面向2025届毕业生提供1.8万余个岗位。数据显示,截至4月30日, 京东体系员工总数已超过72万人,其中快递小哥、运输司机、分拣员工等一线员工总数超过50万人。 "非常惊喜!能在实习后通过转正述职,提前锁定正式校招offer(入职通知)。"去年正式入职京东的晓 韦说,公司为大学生人才设置了快速成长通道,他在入职后的短短一年间连获两次晋升,成长为一名能 够独当一面的采销人员。 京东集团雇主品牌负责人石玉介绍,公司在连续三年累计面向在校生提供5万多个岗位的基础上,今年 面向2025届毕业生再提供1.8万余个岗位,核心岗位薪资提升20%。同时,今年5月,京东启动了面向全 球技术人才招聘的"顶尖青年技术天才计划",在新兴领域持续提供更多优质岗位,涵盖多模态大模型与 应用、机器学习、搜索推荐广告、空间与具身智能、高性能与云计算、大数据等前沿领域。 新技术催生新职业,公司近年来增添了许多新岗位,例如"大模型+"广告智能投放岗、"AI+"医疗服务 岗、家用机器人研发岗、无人机飞行师等等。 "有了'五险一金',心里踏实也更有奔头。"今年3月成为京东外卖全职骑手的杨晶泽说 ...
何小鹏:大模型道路,大家都在摸着石头过河
news flash· 2025-06-12 11:31
金十数据6月12日讯,6月10日晚,小鹏在广州亮相了最新一款SUV车型G7。但发布会上,CEO何小鹏 用超过一半的时间,来介绍新车的辅助驾驶芯片"图灵"。会后沟通会环节,媒体提问与何小鹏的回答也 大多围绕着芯片展开。沟通会上,何小鹏表示:"在大模型道路上,大家都在摸着石头过河。"VLA方 案,似乎正在成为国内辅助驾驶第一梯队玩家的选择,此前理想进入了该方案的开发。不过,这也是国 内与特斯拉FSD方案的分岔点。从公开信息来看,特斯拉依旧在"端到端"方案上深耕,与多模态大模型 并不关切。 (36氪) 何小鹏:大模型道路,大家都在摸着石头过河 ...
格灵深瞳: 国泰海通证券股份有限公司关于北京格灵深瞳信息技术股份有限公司部分募投项目变更实施地点的核查意见
Zheng Quan Zhi Xing· 2025-06-12 10:28
国泰海通证券股份有限公司 关于北京格灵深瞳信息技术股份有限公司 部分募投项目变更实施地点的核查意见 国泰海通证券股份有限公司(以下简称"国泰海通"或"保荐人")作为北 京格灵深瞳信息技术股份有限公司(以下简称"格灵深瞳"、 "公司"或"发行人") 首次公开发行股票并在科创板上市的保荐人,根据《证券发行上市保荐业务管理 办法》 《上市公司监管指引第 2 号——上市公司募集资金管理和使用的监管要求》 《上海证券交易所科创板上市公司自律监管指引第 1 号——规范运作》《上海证 券交易所科创板股票上市规则》等有关法律法规和规范性文件的要求,就格灵深 瞳部分募投项目变更实施地点的事项进行了审慎核查,并发表如下核查意见: 一、募集资金基本情况 经中国证券监督管理委员会《关于同意北京格灵深瞳信息技术股份有限公司 首次公开发行股票注册的批复》 (证监许可〔2022〕64 号)核准,公司首次向社 会公众公开发行人民币普通股(A 股)46,245,205 股,发行价为人民币 39.49 元/ 股,募集资金总额为人民币 182,622.31 万元,扣除不含税券商承销费用和保荐费 用 12,783.56 万元后的募集资金为 169, ...
姜大昕走“窄门”
3 6 Ke· 2025-06-12 10:11
阶跃星辰出现了一些人事变化。 而作为去年明星创企的六家之一,阶跃并不是六小龙里最有存在感的。 相比起靠200万字上下文出圈的Kimi,借星野打出差异化的MiniMax,以及早早To B的智谱,阶跃星辰一直颇为低调,而在低调的背面,则是缺乏独 特的亮点和标签,以至于在打到白刃战的大模型赛道,存在感并不强。 根据市象报道,阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人。公开信息显示,段楠最初在阶跃星辰对外身份是视 频生成模型负责人,后期以Tech Fellow的头衔出现。 就在数天前,阶跃星辰被爆出在去年12月对角色扮演类Agent产品"冒泡鸭"停止大范围投入,原团队合并至对话产品"跃问"(现更名为"阶跃AI"), 仅留部分员工运维。 对此,亦有阶跃员工告诉字母榜(ID:wujicaijing),去年年底冒泡鸭业务组确有裁减,但主要针对产品、测试、运维等岗位,同时,近期视频模 型团队部分核心成员跟随段楠加入了京东。 阶跃星辰回应字母榜称,"早期,我们基于当时的模型能力进行了一些产品探索。2025年,随着多模态和推理能力的成熟,我们产品进行收敛,聚焦 Agent方向。" 5月,阶跃 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 08:17
Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 08:16
Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
机器之心· 2025-06-12 03:23
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为 作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透 明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个 字,难。 核心贡献:无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全 无需额外训练 的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步: 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直 接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。 这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...