多模态融合 - filings, earnings calls, financial reports, news - Reportify

多模态融合

Search documents

新京报联合Xsignal发布首期“全媒介之星”中国AI应用榜

Bei Ke Cai Jing· 2025-07-11 02:45

本榜单根据不同领域AI应用的全媒介声量（核心指标为AI应用用户发文总量，实时覆盖新闻、社交媒体、短视频、垂直社区、金融财经等800+内容平台数据），梳理出了2025年1月-6月排名前20的国内AI应用，并对照应用的MAU（月活跃用户）进行了数据分析。 7月10日，2025贝壳财经年会上，新京报AI研究院和数据公司Xsignal联合发布了2025年上半年"全媒介之星"中国TOP 20 AI应用榜单。 | 1,071 24 | 33 23 | 373 23 | 870 | | --- | --- | --- | --- | | (MAU I ) ( ( ( ( ( ( ( ) | (MAU 万) ( ( 总声量万) | (MAUI 万) (总声量万) | (MAUI 7) | | 24 (总声量1万) | | | | 从具体APP来看，市场集中度的攀升成为上半年最显著的特征。豆包、DeepSeek、夸克组成的 "超级三巨头"，以超2000万的声量（其中豆包接近3000万）和破亿的活跃用户数（豆包2.05亿、DeepSeek2.2亿），牢牢占据核心流量入口与用户心智。数据显示，三者合计占据市场超 60% 的 ...

差异化竞争

多模态融合

个性化智能体

差异化竞争

多模态融合

个性化智能体

从Grok-4看AI产业发展

2025-07-11 01:05

从 Grok-4 看 AI 产业发展 20250710 摘要 GROX4 在推理能力上实现显著提升，在 Humans Last Examination (HLE)测试中得分达到 50 分，远超 OpenAI 的 23 分，并在美国奥林匹克数学竞赛中取得优异成绩，显示其强大的推理能力。 GROX4 通过稀疏激活策略优化参数，减少了 40%的参数量，同时提高了推理效率。相比 GROX3，GROX4 仅使用 1.7 万亿 TOKEN，性能却显著提升，降低了计算成本。 GROX4 引入多模态融合，整合音频、图像、实时搜索和工具调用，增强了模型处理复杂任务的能力，并支持实时上网功能，扩展了应用场景。 GROX4 的 API 定价较高，输入每百万 TOKEN 收费 3 美元，输出每百万 TOKEN 收费 15 美元，是 O3 的一倍价格，反映了其性能提升带来的成本增加。 GPT-5 预计在 7 月底至 9 月份发布，重点在于多模态深度整合，包括文生图、文生视频和音频交互能力，并增强 agent 功能，以提升产品体验。 Grok 创新模式将 agent 调用放入预训练中，通过多个 agent 协作完成任务， ...

多模态融合

Artificial Intelligence

多模态融合

Artificial Intelligence

从多模态融合到行业深扎，国内 AI 大模型三大发展方向解析

Sou Hu Cai Jing· 2025-07-07 03:36

国内有众多 AI 大模型研发机构，如百度、阿里、字节跳动、科大讯飞等，从这些机构的实践来看，大模型主要有以下发展方向： ·行业深度赋能：科大讯飞计划将星火大模型从 "通用" 走向 "行业"，深度赋能汽车、教育、医疗、智慧城市、赛事运营等产业。百度、阿里等公司的大模型也在金融、工业、政府、科研、电商等领域积极探索应用，未来大模型会针对不同行业的特点和需求，进行定制化开发和优化，为各行业提供更专业、更精准的服务，推动行业智能化升级。 ·智能应用创新：随着大模型技术的发展，将催生更多新型智能应用。字节跳动提出 "互联网正从 APP 时代进入 Agents 时代"，其火山引擎发布的方舟平台等系列工具，构建了服务 Agent 开发的完整体系，展现出 AI 重构软件开发范式的潜力，也催生了不少如他她它、推氪AI等的应用层面的产品。未来，大模型将与更多新兴技术结合，创造出如智能助手、智能创作工具等更多创新应用，改变人们的生活和工作方式。生态建设方向 ·开源共享：开源成为大模型发展的重要趋势。2025 年以来，字节豆包、百度文心、阿里通义千问等均推出开源模型。商汤科技发布了 LazyLLM 开源框架等产品，Min ...

多模态融合

推理能力提升

构建产业生态

多模态融合

推理能力提升

构建产业生态

从感知能力提升到轻量化落地，具身这条路还要走很长一段时间~

具身智能之心· 2025-06-30 12:21

技术驱动与应用牵引的双重作用下，2025年具身智能产业呈现爆发式的增长，这些趋势不仅塑造着行业的技术路线，也深刻影响着商业化落地的路径与节奏。这里也为大家盘一下这两年具身重点关注的技术领域。感知能力升级与多模态融合是具身技术路线发展的重要一环，在视觉感知之外，触觉感知则是这两年发力的重点，特别是灵巧手领域，力控能大幅提升操作的精细度及结果反馈能力。多模态传感器融合技术使机器人能够同时处理视觉、听觉、触觉等多种信息，这种融合不仅体现在硬件层面，更在于算法层面的深度整合。大幅提升了环境感知的准确性和全面性。大模型驱动的大脑算法正在不断地提升机器人对世界的经验认知与理解。特别是在人形机器人领域，大模型基于多模态数据提升机器人的感知能力，推动机器人的自主学习、决策规划能力，并结合动作训练、行为交互训练，有望提升动作的泛化能力。同时，轻量化的模型设计也成为行业落地的迫切需求，我们更需要低算力、多模态、跨平台的轻量化模型作为支撑！同时，仿真环境与数据生态建设也极为重要！仿真环境与世界模型的持续完善为具身智能提供了高效的训练平台。基于对物理世界的规律认知经验，利用仿真平台进行物体运动、形变，环境的光 ...

仿真环境与数据生态建设

多模态融合

人形机器人

仿真环境与数据生态建设

多模态融合

人形机器人

国产大模型高考出分了：裸分683，选清华还是北大？

量子位· 2025-06-26 06:25

金磊发自凹非寺量子位 | 公众号 QbitAI 这两天啊，各地高考的成绩终于是陆续公布了。现在，也是时候揭晓全球第一梯队的大模型们的"高考成绩"了—— 我们先来看下整体的情况（该测试由字节跳动Seed团队官方发布）：按照传统文理分科计分方式，Gemini的理科总成绩655分，在所有选手里排名第一。豆包的文科总成绩683分，排名第一，理科总成绩是 648分，排名第二。再来看下各个细分科目的成绩情况： | 模型 | 语文 | 数学 | 英语默认听力满分 | 物理 | 化学 | 生物 | 地理 | 历史 | 政治 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 满分 | 150 | 150 | 150 | 100 | 100 | 100 | 100 | 100 | 100 | | Doubao-Seed-1.6-Thinking | 128 | 141 | 144 | 90 | ਦਰ | 76 | ਰੇਖੋ | 92 | 84 | | Gemini-2.5-Pro-0605 | 126 | 140 | 141 | ...

多模态融合

多模态融合

RoboSense 2025 机器感知挑战赛正式启动

具身智能之心· 2025-06-25 13:52

面向现实世界的机器人感知评测任务，五大赛道，全链路挑战，全球征集解决方案！为什么需要 RoboSense？在机器人系统不断迈向真实世界的进程中，感知系统的稳定性、鲁棒性与泛化能力正成为制约其部署能力的关键因素。面对动态人群、恶劣天气、传感器故障、跨平台部署等复杂环境条件，传统感知算法往往面临性能大幅下降的挑战。为此， RoboSense Challenge 2025 应运而生。该挑战赛旨在系统性评估机器人在真实场景下的感知与理解能力，推动多模态感知模型的稳健性研究，鼓励跨模态融合与任务泛化方向的创新探索。 | Registration | From June 2025 | | --- | --- | | Competition Server Online | June 15th, 2025 | | Phase One Deadline | August 15th, 2025 | | Phase Two Deadline | September 15th, 2025 | | Award Decision @ IROS 2025 | October 19th, 2025 | 该赛事由新加坡国立大学、南 ...

机器人感知

多模态融合

语言驱动的自动驾驶

机器人感知

多模态融合

语言驱动的自动驾驶

BEV高频面试问题汇总！（纯视觉&多模态融合算法）

自动驾驶之心· 2025-06-25 02:30

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线写在前面自BEVFormer带起BEV感知热潮以来，从BEVDet到PETR、BEVDepth、BEVFusion，再到最近火热的 InternBEV、BEV-Lane系列，BEV（Bird's Eye View）感知已经成为视觉感知中的兵家必争之地。不仅如此，随着多模态融合、时间建模、实时性优化等技术不断取得突破，BEV感知的实际落地也正在加速推进。2024年以来，地平线、文远、小鹏、比亚迪、毫末等厂商纷纷投入量产研发，不少团队也将BEV作为核心视觉模块融入自研的自动驾驶栈。如今2025年已过半， BEV感知领域还有哪些值得重点关注的新技术？哪些论文提出了真正具有变革性的想法？有哪些方法已经在量产项目中落地？这些问题，都是每一位前沿从业者和技术爱好者无法回避的思考方向为此，自动驾驶之心对 BEV感知方向的相关提问和回答进行了系统汇总，看不过瘾可以关注文末附上的资料，感兴趣的小伙伴千万别错过呦 BEV知多少在bev空间上，要检测A目标，肯定要用对应的A目标特征，拿其他目标的特征过来有啥用 ...

多模态融合

BEV感知技术

多模态融合

BEV感知技术

多模态内容生成的机会，为什么属于中国公司？

Founder Park· 2025-06-24 11:53

2025 年多模态技术快速发展，中国创业团队在内容生成领域正在形成领先优势。与美国在大语言模型领域的领先不同，中国企业在视频生成、3D 创作等多模态细分领域已跻身全球第一梯队。像 Pixverse 的视频生成产品用户规模超过许多美国知名产品，VAST 在 3D 技术上实现核心突破，Feeling AI 则探索出多模态融合的创新路径。这些成绩背后，是中国创业团队在场景理解、数据积累和工程落地方面的综合优势。 AGI Playground 2025，在靖亚资本主办、Founder Park 联合主办的 2025 AI Cloud 100 China 榜单发布会上，晚点 LatePost 科技负责人、《晚点聊》主播程曼祺主持了一场圆桌对话，与 Pix V erse 爱诗科技联合创始人谢旭璋、VAST 创始人 & CEO 宋亚宸以及 Feeling AI 创始人 & 首席科学家戴勃，深入探讨了「多模态内容生成，为什么是属于中国公司的机会？」。三位行业嘉宾深入分析了中国创业团队的优势所在。谢旭璋提到，国内团队在视频技术领域有多年积累，抖音、快手等产品背后的视觉技术为视频生成奠定了基础，而组织架构 ...

多模态内容生成

多模态融合

Artificial Intelligence

多模态内容生成

多模态融合

Artificial Intelligence

全模态数据闭环破局具身智能“粮荒”，零次方方案将机器人训练门槛拉至10万级

机器人大讲堂· 2025-06-19 10:55

摩根士丹利分析师最新报告称， 2024年，中国在全球机器人市场所占份额为约40%。分析师预计，未来四年，中国机器人市场预计以平均每年23%的增幅快速增长，市场规模将从2024年的470亿美元增长至2028 年的1080亿美元，足足翻一倍有余。但训练一台能灵活抓取豆腐、理解复杂指令的人形以及具身智能机器人，仍面临 " 数据荒 "——要么"食材"（数据模态）种类不全，要么"烹饪过程"（采集管理）过于繁琐复杂，这使得当前主流机器人模型依赖视觉与关节数据，在精密装配、柔软物体操作等需要力反馈的场景中频频 "翻车"。在 IEEE 2024的一项行业调研中，提到高达 72%的研发团队认为多模态数据缺失是当前落地的最大瓶颈。机器人智能化训练的核心瓶颈之一在于高质量、多维度数据的获取与管理。机器人大讲堂注意到， 6月，国内首家实现专项场景超长序列多任务连贯操作机器人公司——零次方行业创新再突破，正式发布 " 全模态 " 具身数据全链路解决方案。方案涵盖软硬件两大方向，如同打造了一条从 " 食材源头 " 到 " 美味佳肴 " 的完整自动化厨房，旨在解决具身智能模型训练普遍存在 ...

多模态融合

全模态具身数据全链路解决方案

全模态数采人形机器人ZERITH - H1

ZERITH - VR APP

多模态融合

全模态具身数据全链路解决方案

全模态数采人形机器人ZERITH - H1

ZERITH - VR APP

一口气发布4个大模型，火山引擎这次真的杀疯了！

Sou Hu Cai Jing· 2025-06-17 09:09

近日，火山引擎FORCE原动力大会在北京盛大召开。会上，火山引擎正式发布豆包大模型1.6、豆包・视频生成模型Seedance 1.0 pro等新模型，并升级了 Agent开发平台等AI云原生服务。这些新产品在多模态交互、复杂任务处理、内容生成等方面展现出强大功能，如豆包大模型1.6支持多模态理解和图形界面操作，能高效处理真实世界问题；Seedance 1.0 pro可生成高品质视频，在多项评测中位居前列。当前，全球AI大模型市场竞争激烈，众多企业纷纷布局。与市面上同类产品相比，火山引擎此次发布的大模型家族凭借全模态、全尺寸、高性价比的特性脱颖而出。例如在多模态能力上，相比部分仅支持单一或少数模态的模型，豆包大模型1.6实现了更广泛的模态融合与深度理解；在成本方面，创新的定价策略也为企业用户带来了显著优势，在激烈的市场竞争中抢占先机。火山引擎的豆包大模型家族已形成丰富矩阵，涵盖基础语言模型、视觉模型、语音模型等，适用于智能交互、内容创作、数据分析等多元场景。基础语言模型凭借强大的自然语言处理能力，为智能客服、文本生成等场景提供核心支持；视觉模型在图像识别、视频分析等领域发挥关键作用；语音模型则专注 ...

多模态融合

边缘智能协同

自主学习与决策

豆包大模型1.6

多模态融合

边缘智能协同

自主学习与决策

豆包大模型1.6