Workflow
多模态
icon
Search documents
今夏面世 OpenAI剧透GPT-5
Bei Jing Shang Bao· 2025-06-19 14:52
OpenAI联合创始人兼首席执行官山姆·奥特曼在最新播客中披露,备受关注的GPT-5预计将于今年夏季发布,目前 具体发布日期尚未确定。随着GPT-5发布时间的临近,业界普遍认为,多模态大模型领域又将迎来新一轮的技术 竞争,该模型将成为生成式人工智能能力的一次重大升级。从早期测试者的反馈来看,其性能较GPT-4有显著提 升。但也有人担忧,从去年开始GPT-5就曾屡屡跳票,这会不会又是一次"狼来了"? AI能力重大飞跃 OpenAI开启官方播客,CEO打头阵。当地时间6月18日,OpenAI发布了一则山姆·奥特曼的访谈视频。在40分钟的 专访中,奥特曼回应了大家普遍关心的GPT-5、隐私保护、广告业务、5000亿美元的投资项目"星际之门"等热点 话题。奥特曼说,GPT-5"可能是在今年夏天的某个时候"会发布,但他也同时表示,对于新模型,内部也在讨论 是简单地提升版本号,还是像GPT-4那样不断优化和改进。 奥特曼还暗示,GPT-5所代表的不仅仅是性能升级,它还可能标志着OpenAI朝着统一的、类似代理的模型迈出了 真正的第一步,此举将使其更接近其通用人工智能目标。"我认为我们已经接近这座山的尽头了",他表示。 G ...
Agent开始“卷”执行力,云厂商的钱包准备好了吗?
Di Yi Cai Jing· 2025-06-19 13:55
Group 1: Industry Trends - The large model industry is experiencing a shift from high valuations in the primary market to foundational infrastructure construction for computing power [1] - The upcoming release of GPT-5 by OpenAI will integrate o-Series and GPT-Series, emphasizing the need for strong execution and high computing power [1][4] - The demand for computing power is driven by the increasing complexity of tasks that AI agents can perform, marking a transition from passive response to active execution [4][5] Group 2: Investment and Spending - North America's major cloud providers are significantly increasing their investments in AI infrastructure, with Amazon Cloud planning to spend over $100 billion by 2025, while Microsoft and Google plan to invest $80 billion and $75 billion respectively [2] - OpenAI's Stargate project aims for a total investment of $500 billion to enhance its computing capabilities, with the first phase already underway [6] - Major cloud companies are ramping up their budgets for AI computing infrastructure, with a reported combined capital expenditure of $76.5 billion in Q1 2025, a 64% year-on-year increase [7] Group 3: Market Dynamics - The AI agent market is likened to mobile internet apps, indicating a new area for industry growth as AI begins to take on more active roles [5] - The competition among cloud service providers is intensifying, with companies adopting low-price strategies to capture market share in the AI cloud service sector [8] - The integration of AI into existing business models and the development of multi-modal technologies are also contributing to the growing demand for computing power [6]
全模态数据闭环破局具身智能“粮荒”,零次方方案将机器人训练门槛拉至10万级
机器人大讲堂· 2025-06-19 10:55
摩根士丹利分析师 最新 报告称, 2024年,中国在全球机器人市场所占份额为约40%。分析师预计,未来四 年,中国机器人市场预计以平均每年23%的增幅快速增长,市场规模将从2024年的470亿美元增长至2028 年的1080亿美元,足足翻一倍有余。 但训练一台能灵活抓取豆腐、理解复杂指令的 人形以及具身智能 机器人,仍面临 " 数据荒 "——要么"食 材"(数据模态)种类不全,要么"烹饪过程"(采集管理)过于繁琐复杂, 这使得 当前主流机器人模型依赖 视觉与关节数据,在精密装配、柔软物体操作等需要力反馈的场景中频频 "翻车"。 在 IEEE 2024的一项行 业调研中,提到 高达 72%的研发团队认为多模态数据缺失是 当前落地的 最大瓶颈 。 机器人智能化训练的核心瓶颈之一在于高质量、多维度数据的获取与管理。 机器人大讲堂注意到, 6月,国 内首家实现专项场景超长序列多任务连贯操作机器人公司——零次方行业创新再突破,正式发布 " 全模态 " 具身数据全链路解决方案。 方案 涵盖软硬件 两大方向, 如同打造了一条 从 " 食材源头 " 到 " 美味佳肴 " 的完整自动化厨房, 旨在 解决具身智能模型训练普遍存在 ...
阿里巴巴集团副总裁许主洪:多模态大模型是通往AGI的关键路径|直击MWC上海2025
Guo Ji Jin Rong Bao· 2025-06-19 10:48
许主洪进一步分享道,多模态理解模型主要基于自回归的模型框架,相比之下,多模态生成模型则更多地采用基于扩散的模型框架,利用如UNet和DiT 等架构,以及CLIP和T5等先进的文本编码器。 根据许主洪预测,未来多模态大模型将朝着理解与生成相统一的方向发展,但同时也指出主干网络设计、模态对齐融合等关键技术仍需深入研究。尽管 行业整体仍处于早期阶段,不过其对多模态技术在搜索、创作、机器人等领域的应用前景充满信心。 "多模态agent AI的时代才刚刚开始,未来我们要真正达到AGI,还是要解决非常多的技术难题,包括多模态大模型基础的能力,数据细节的连接与操 作,物理世界的控制与交付等等,都有很多的技术挑战,但这也是未来多模态大模型行业机会。"6月19日,在上海世界移动通信大会(MWC上海2025) 上,阿里巴巴集团副总裁,智能信息事业群首席科学家发表主题演讲,深入阐述了多模态大模型技术的发展趋势及其在实现通用人工智能(AGI)中的核心 作用。 在演讲中,许主洪将多模态大模型技术分为理解与生成两大类,并系统梳理了技术演进路径。他指出,多模态的理解任务,主要解决的难点包括多模态 的模态编码对齐、融合的理解与推理等等;多模 ...
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇大模型相关论文。本文 深入 探讨了 多模态推理模型中推理能力与幻觉之间的平衡 问题 。如果您有相 关工作需要分享,请在文末联系我们! 本文只做学术分享,如有侵权,联系删文 论文作者:Chengzhi Liu等 作者单位:加州大学、斯坦福大学 项目主页:https://mlrm-halu.github.io/ 解决方案: 不如设计一个能跟踪推理长度变化的指标吧! 于是, RH-AUC 诞生了——它就像一个"动态平衡仪",能画出"推理长度vs.感知准确率"的曲线,算出曲 线下面积(AUC),数值越高,说明模型在不同推理长度下越能"稳得住视觉基本盘"。 前言 自从以 DeepSeek-R1 为代表的 推理LLM 进入研究者广泛讨论范围后, 多模态推理模型 也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷 (PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作 这里查看「多模态推理模型」热门工作汇总(上)~ ; 盘一盘「多模态推理模型」近期热门工作 (下)~ )。 今天就 ...
展位有限!第二届全球医疗科技大会招商进行中
思宇MedTech· 2025-06-19 10:19
商务合作,联系方式如下。 工作微信号: suribot22 手机号: 13552754250 也可以直接联系主编赵清、Alice、Jacky、Ziana 等任何思宇团队的工作人员。 以下为思宇此前举办的大会展位示意图,供参考: 主题演讲 大会现场品牌展位 企业宣传资料发放 活动现场环节嵌入品牌标识 思宇年度活动回顾: 首届全球眼科大会 | 首届全球骨科大会 | 首届全球心血管大会 | 首届全球医美科技大会 由思宇MedTech主办的 第二届全球医疗科技大会 , 将于2025年7月17日在北京中关村展示中心举行。作 为专注于医疗器械的高规格行业大会,企业参展不仅是一次线下交流,更是一次精准的品牌曝光机会。 大会 聚焦"前沿技术 · 从研发走向临床应用" 。目前, 招商已经开始, 展位有限,欢迎有意企业抓紧对接。 权益包括但不限于: # 大会概况 一、会议地点 : 中关村展示中心会议中心(北京市海淀区新建宫门路2号) 六、大会议程(拟) 本次大会将邀请来自影像设备、AI平台、高值耗材、能量系统、材料技术等方向的上市公司、创业企业等,分 享 产品创新、技术落地、医工协同等方面的实践经验。 本届大会将重点探讨以下话题 ...
获批NMPA!国内首款64通道高清多模态掌上无线超声
思宇MedTech· 2025-06-19 10:19
思宇年度活动回顾: 首届全球眼科大会 | 首届全球骨科大会 | 首届全球心血管大会 | 首届全球医美科技大会 即将召开: 2025年7月17日,第二届全球医疗科技大会 2025年9月3-5日,第三届全球手术机器人大会 2025年6月17日, 华大智造掌上无线彩色多普勒超声诊断仪EF6系列 (型号包括EF6-CLA、EF6-CLD、EF6- CLG、EF6-CLP、EF6-CLS)正式获得江苏省药品监督管理局颁发的医疗器械注册证 (注册证编号:苏械注准 20252061068) 。 该注册证的颁发标志着国内首款 64通道双探头掌上超声诊断设备 完成国家级安全性与有效性验证,正式取得 合法上市资质。 作为便携超声领域的一项关键进展,EF6系列的注册通过,不仅代表着技术参数和应用能力的全面升级,也标 志着中国便携超声设备在产品形态、图像质量与临床适配性方面,开始迈入"高清多模态"的阶段。 这是继远程超声机器人MGIUS-R3、H1系列掌上超声之后,华大智造在超声产品线中的又一重要技术成果,进 一步丰富了其"智能+远程+自动化"医疗影像生态系统。 # 产品机制与设计理念 EF6系列定位为新一代掌上超声旗舰机型,在结构 ...
关注暑期文娱表现,AI应用商业化加速与IP经济提振估值
2025-06-19 09:46
关注暑期文娱表现,AI 应用商业化加速与 IP 经济提振估值 20250618 摘要 从 5 月以来,传媒行业整体表现相对平稳,剧集综艺的创新节奏稳定且稳步增 长。游戏板块市场情绪随着新游定档、新活动和新赛季的节奏回暖。电影板块 快手 AI 视频工具估值约 60 亿美元,预计 2025 年底营收达 2 亿美元。 按 30 倍估值倍数计算,快手 2025 年净利润预期约 201 亿元。鉴于快 手在赛道布局上的领先性及 AI 生态系统升级,给予 2025 年约 16 倍市 盈率估值,对应目标价 80 港元。 5 月份全国票房同比下降 41%,观影人次下降 40%。3 月至 5 月票房平 淡,受春节档影响,头部影片较少。端午档票房同比增长 9%,进口片 表现突出。暑期档容量大,弹性大,各片方通常会选择在此期间上映头 部商业化影片,有望展现更大的弹性和情绪回暖迹象。 数字媒体方面,爱奇艺、腾讯视频、芒果 TV 和优酷视频 5 月份活跃用 户分别为 3.5 亿、3.7 亿、2.8 亿和 2.0 亿。芒果 TV 和优酷视频环比提 升,爱奇艺和腾讯视频环比下降。《歌手 2025》表现良好,有望贡献 二季度广告收入。暑期是古 ...
汪华的最新预言:AI时代和移动互联网的最大区别是实现,而非连接
暗涌Waves· 2025-06-19 09:21
「 一年内是吃模型红利头一口汤的黄金期,创业要趁早。 」 整理 | 于丽丽 在中国的风险投资界,创新工场联合CEO兼管理合伙人汪华,素来以 颇具前 瞻性著称。2008年,他超前预测了移动互联网大潮的 到来,2011年则对移动互联网做出"三步走"的趋势判断。这些"预言"在后来的现实中,一一印证。 " 42章经"的曲凯, 因此曾认为,关于移动互联网,从对趋势的预测,和战略布局来说,只有两个人是天才级存在:一个是美团的 王兴,另一个就是汪华。 前不久,在杭州举办的 36氪WAVES新浪潮2025大会上,汪华发表了题为《超越连接,拥抱实现:Agent与多模态的十倍机会》的主 题演讲。 演讲中,他指出了AI时代与移动互联网时代范式的不同,并认为我们即将迎来一个遍地是黄金的AI时代,而所有AI创业者将分享有 生以来最大的一波红利:模型红利。 以下是演讲内容,经编辑: 非常高兴有机会和大家交流关于AI创业里的一些看法和我的观察。"超越连接,拥抱实现",这也是过去两三年时间,和非常多的创 业者,包括投资人了解后的一些体会。 Part 01 移动互联网的旧范式 与 AI 时代的新范式 首先,我们讨论旧的范式和新的范式。AI时代 ...
依图科技前高管创业融资千万元,路由物理世界到AI模型,推动设备智能化改造|36氪首发
3 6 Ke· 2025-06-19 02:33
Core Insights - YunJinWei, a company focused on developing embodied intelligent operating systems, recently completed a Series A+ funding round, raising 10 million yuan to enhance its platform, expand product offerings, and increase ecological coverage in various industry scenarios [1][3] - The global market for embodied intelligent devices is projected to exceed $25 billion by 2024, with a compound annual growth rate (CAGR) of nearly 20%, and China's demand for intelligent transformation in industrial automation and smart cities accounts for over 35% [1][2] - The company aims to address the urgent need for multimodal AI in physical environments, as traditional language models can only handle one-dimensional text data, while industries require integration of visual, sensor, and control command data [1][2] Technology and Innovation - YunJinWei's proprietary YunJin OS utilizes the MaM (Model-Alloy-Model) synthesis model, which achieves nanosecond-level collaborative scheduling of heterogeneous models, significantly improving efficiency in scenarios like intelligent inspection [2] - The architecture addresses the challenge of fragmented physical world data by allowing over 90% of private multimodal data to be processed on edge devices, thus reducing data security costs [2] - The VT-Transformer framework developed by YunJinWei reduces model inference latency to 12ms and decreases memory usage by 85%, enabling billion-parameter multimodal models to run on cost-effective edge hardware [2] Market Penetration and Vision - As of Q2 2025, YunJinWei has served over 120 enterprises, generating revenue in the tens of millions, with notable clients including China Electronics, Guiyang Rail Transit, SAIC Group, and Shanghai Tunnel [3] - The founder, Wang Wenyi, emphasizes the vision of making AI accessible to every enterprise, facilitating low-cost training and inference for intelligent systems [3] - The team comprises experienced professionals from various fields, including system software, chip design, and visual AI, and has established partnerships with research institutions to enhance its technological capabilities [3]