Workflow
多模态
icon
Search documents
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
HumanOmniV2团队 投稿 量子位 | 公众号 QbitAI 在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL) 在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。 在深入研究现有技术后,发现在当前多模态推理模型中发现现有的推理路径存在两大核心问题:全局上下文理解不足和捷径问题。 全局上下文理解不足: 当模型无法准确识别或错误解读多模态证据和上下文信息时,便会出现此问题,导致给出不正确的答案。 捷径问题: 指模型在处理多模态输入时,忽视了关键线索,未充分考量多模态信息就直接给出答案,从而导致次优或片面的结果 为彻底解决这些痛点,阿里巴巴通义实验室团队推出 HumanOmniV2 ,强调模型必须在对多模态输入 全局上下文有清晰理解 的 基础上进行推理。这种全局性理解能够有效避免模型遗漏关键多模态线索,确保推理过程的全面性和深入性。 相关代码、模型、数据都开源,地址可在文末获取。 效果展示 问题:这两个人是什么关系? A. 他们想引起人们对该产品的关注。 B. 这两个人是商业伙 ...
打视频听播客,豆包为何总是先人一步?
新财富· 2025-07-08 07:14
Core Viewpoint - The article discusses the innovative strategies and competitive advantages of Doubao, a product developed by ByteDance, in the AI assistant market, particularly focusing on its unique interaction design and technological advancements. Group 1: Product Development and Innovation - Douyin, as a latecomer in the short video market, succeeded by innovating interaction design and leveraging technology effectively, which allowed it to capture user interest and engagement [5][10][11] - The full-screen design of Douyin minimizes distractions, enhancing user experience by allowing immediate content consumption [6][7] - ByteDance's product development philosophy centers around user experience, setting OKRs that prioritize user needs and employing comprehensive technical capabilities to create distinct user experiences [15][16] Group 2: Market Position and Competitive Landscape - The AI assistant market has reached a saturation point where many companies are enhancing existing services rather than innovating, leading to a competitive stalemate [20] - ByteDance's strategy is to differentiate itself by investing in AI multimodal interaction, moving beyond traditional text-based interfaces to more intuitive voice and video interactions [21][30] Group 3: User Interaction and Accessibility - Doubao's introduction of real-time voice calling and video features aims to lower the entry barrier for users, particularly benefiting older adults who may struggle with text input [22][23][30] - The article highlights the importance of reducing user psychological barriers in AI interaction, suggesting that simplifying user engagement is more critical than merely advancing model technology [34][36]
AI发展的三种可能性与重新被定义的真实
Xin Lang Cai Jing· 2025-07-08 06:28
AI是镜像世界最重要的基石 在《2049:未来10000天的可能》一书中凯文·凯利(Kevin Kelly)探讨了未来10000天科技与社会的发 展。书中以2049年为时间节点,展望了人工智能、镜像世界、脑机接口、生命科学等前沿技术如何塑造 未来的社会、经济和文化。书中通过五大核心概念(镜像世界、AI助理、互见性、内容井喷、类人智 能)和十大发展领域(AI、数字治理、组织变革、教育、医疗、机器人、自动驾驶、航天、生命科 学、脑机接口)构建了一个全面的未来图景。本文摘自该书,智通财经经中信出版集团授权发布。 我提出了未来25年至关重要的5个核心概念,分别是镜像世界、异人智能、AI助理、互见性以及内容井 喷。接下来,我将进一步思考技术的进步在未来25年会给哪些领域带来巨大的改变。 未来25年技术演进的逻辑清晰可见:首先是基石层面的AI、数字治理与组织变革;其次是生存层面, 以医疗和教育为代表;再次是应用层面,比如机器人、无人驾驶和太空探险;最后是人类探索的终极层 面,涵盖生命科学和脑机接口。 【编者按】 第三种可能性是,前面两种假设都没有实现。15年或25年后,和VR或AR过去的发展历史一样,AI基本 上还停留在 ...
自研多模态触觉传感技术,「模量科技」获千万级天使轮融资 | 36氪首发
3 6 Ke· 2025-07-08 01:32
文 | 张卓倩 编辑 | 袁斯来 36氪获悉,深圳市模量科技有限公司(以下简称「模量科技」)宣布完成由德宁资本投资的千万级天使轮融资,北深资本担任长期顾问。本轮融资资金将主 要用于产品研发、市场推广以及团队建设。 「模量科技」成立于2024年底,是一家专注于多模态多维力触觉传感技术及触觉模型研发与应用的科技公司,其产品包括机器人触觉、工业压力分布检测、 织物类柔性传感器以及柔性薄膜传感器等。产品广泛应用于机器人触觉、工业检测(新能源、3C 制造业)、消费电子以及医疗健康等领域。 「模量科技」自研技术 针对柔性传感行业普遍存在的量程不足、灵敏度受限、温漂干扰大等核心问题,「模量科技」从材料端切入,自主研发高灵敏度敏感材料与微结构工艺,采 用耐高压弹性体+微结构设计,显著提升了传感器的量程、精度和灵敏度。"我们的微结构设计有点像海绵,"官华解释,"它可以有效扩展传感器的灵敏度和 检测范围,增强对不同压力场景的适应性。目前,我们的最大压力量程可以做到20 MPa,线性度达到了99.9%。" 不仅如此,「模量科技」还打通了多维触觉感知链路,围绕三维力、切向力、摩擦力算法,构建了材料识别、姿态判断等触觉模型,赋能机器人 ...
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-07 23:31
大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM 方案。那么下一代大模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬 件适配、知识蒸馏与量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式 也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越 多的团队正在从事相关方向研究。前面收到很多同学的求助,希望能够辅助开展大模型相关的 论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人 带、易踩坑、不知如何写稿、投稿的难题。 ⼀、课程介绍⭐ 解决只了解大模型相关零散知识,没有清晰的体系的问题,帮助系统掌握指定方向的重点理论知 识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系; 解决没有方向,动手能力差,无法复现论文,帮助同学将模型理论与代码实践相结合,协助同学 开发设计新模型铺垫基础;能让学员将baseline深化拓 ...
纳米AI一句话成片功能实测:从文字到视频只需等待
歸藏的AI工具箱· 2025-07-07 13:04
大家好,我是歸藏(guizang),今天带来纳米 AI 超级搜索一句话成片功能的测试。 之前我测试纳米 AI 的 MCP 能力的时候看到有视频生成的 MCP 就提到过,要是可以直接自动生成完整的视 频就好了。 最近他们终于开始好好搞这个流程,做了一个一句话成片的功能。 现在 真的可以一句话生成完整视频了 ,而且成功率高的离谱,用来生成新闻介绍、科普视频、小说情节等都 非常好用,发了提示词等一段时间回来收菜就行。 刚开始我没写提示词,直接找了一个恐怖小说的前两章让他基于这个生成视频,没想到生成的效果还挺好。 他自己基于小说生成的视频提示词也挺厉害,比如手表在虚空中的特效,非常详细的展示了作者拿到他金手指 的效果,而且视频最后他还自己加上了诱导你看下一部分的钩子"让你猜主角能否改变自己的命运"。 这里看生成过程: https://bot.n.cn/share/mcp?id=mu4t17&from=pc&src=360_llq 帮我基于这个小说的情节生成一个三分钟的剧情视频: 第1章 、完美人生模拟器,窗外淅淅沥沥下着小雨。苏午望着窗外的雨线,默默地叹了口气,他的心情就像外面的天 然后找了一个最近刷到的比较火爆的峨 ...
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 12:17
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 快手团队发布8B Kwai Keye-VL 尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在静态图像处理方面展现出卓越的能 力,但在理解动态性强、信息密度高的短视频内容方面仍存在明显不足——而短视频正是当今数字生态中 的主流媒介。为弥补这一差距,快手团推推出了 Kwai Keye-VL ,这是一款参数规模达 8B的多模态基础模 型,专为实现领先的短视频理解能力而设计,同时保持强大的通用视觉-语言处理能力。 Keye-VL 的构建基于两大核心支柱:一是包含超过 6000 亿 token 的大规模高质量数据集,其中以视频数据 为核心;二是创新性的训练策略。该训练策略包括一个四阶段的预训练流程,以实现稳固的视觉与语言对 齐;随后是一个精心设计的两阶段后训练过程。第一个后训练阶段旨在增强模型的基础能力,如指令跟随 等;第二阶段则专注于激发其高级推理能力。 在第二阶段中,我们的关键创新之一是一种五模式"冷启动"数据混合策略,包括"思考型"、"非思考 型"、"自动思考型"、"图文思 ...
IRCTC 2025报告嘉宾重磅揭晓! 72小时后早鸟票关闭!
机器人圈· 2025-07-07 11:14
详细会议介绍参看往期文章: (点击蓝字跳转) 一文看懂2025智能机器人关键技术大会(IRCTC)全景!专家报告、学术征文、青年交流全揭晓! 展览展示|抢位2025智能机器人关键技术大会!高曝光商务合作虚位以待,共赴解锁新机遇 9大期刊联合征文|投稿2025智能机器人关键技术大会,年底正刊发表! 由《机器人技术与应用》杂志社发起,中国自动化学会机器人专业委员会,中国人工智能学会智能机器人专业委员会、中 国仪器仪表学会智能车与机器人专委会和中国工程建设焊接协会机器人及智能焊接专业委员会联合支持的" 2025智能机 器人关键技术大会 "将于 2025年7月22-24日 在 齐齐哈尔市 举办,大会以" 具身智能与多模态交互技术的融合与突破 "为 主题,围绕机器人及人工智能领域前沿技术、关键共性技术、产业化路径与标准化建设和跨学科融合等领域展开交流。 会议邀请我国深耕于智能机器人及相关研究领域的相关院士、资深专家等出席会议并作主题报告,在仿生机器人、具身智 能机器人、医疗手术机器人、康复机器人、外骨骼机器人、机器人伦理与安全、连续体机器人、机器人标准与检测、移动 双臂机器人与灵巧手等热点方向分享前沿技术和科研进展。 ...
AI发现医生看不见的隐藏心脏病风险,近90%准确率远超人类专家|Nature子刊
量子位· 2025-07-07 06:13
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI现在真能救命! 传统的心脏MRI(磁共振成像)检查可能遗漏的关键风险信号,现在能够被AI捕捉了。 登上《Nature》子刊的最新研究—— 多模态 AI模型 MAARS ,首次用深度学习方法处理原始MRI图像,实现了对心源性猝死风险 (SCDA)的高精度预测,准确率高达 89% 。 这项研究来自约翰霍普金斯大学。 目前, 肥厚型心肌病 的临床诊断准确率仅50%,这使得医生在决定患者是否需要植入除颤器等保护措施时,常常面临"掷骰子"般的选择。 MAARS模型采用3D视觉 Transformer 架构,直接分析LGE-CMR(增强心血管磁共振成像)原始信号强度,避免了人工解读的主观性。 该模型能够从原始MRI图像中挖掘 隐藏的 纤维化瘢痕模式。 这些以往被医生忽略的细微结构变化,正是触发致命性心律失常的关键信号。 现在,MAARS可以将这些隐藏的病理信息转化为可量化的风险指标,提前发现连资深心脏专家都有可能忽略的致命风险。 在40岁到60岁人群中诊断准确率高达93% MAARS的核心优势在于通过多模态数据融合与 3D-ViT 技术,首次实现对心脏纤维化瘢痕的 ...