Workflow
语言
icon
Search documents
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
3 6 Ke· 2025-07-23 02:45
本系列的第一部分回顾了大规模视频语言预训练的进展、应用、数据集和技术。该任务使用弱字幕和视频进行表征学习。预 训练和微调是深度学习中的一种标准学习范式,用于在大型数据集上对模型进行预训练,然后在较小的数据集上针对特定任 务进行微调。这消除了为不同任务训练新模型的需要,并降低了计算成本。 预训练通常使用自监督学习在 ImageNet 等大型数据集上进行,而无监督学习在自然语言处理 (NLP) 和计算机视觉 (CV) 领域 也表现出色。预训练模型的权重随后会在较小的数据集上进行微调,以实现特定任务的学习目标。 随着视频应用的发展,大量视频被上传到网上。因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。 1. 简介 视频语言预训练利用大规模视频文本数据进行自监督/无监督学习,以获得泛化表征。主要的代理任务包括掩码语言模型 (MLM)、掩码帧模型 (MFM)、语言重构 (LR)、视频语言匹配 (VLM)、句子排序模型 (SOM) 和帧排序模型 (FOM)。这些任务 分别侧重于语言预测、帧预测、句子生成、视频语言对齐、句子排序和 ...
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 01:04
本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。 第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需 求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。 大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 "新战场" 之一。大模型具备 强 ...
一场对抗OpenAI的“危险游戏”,值不值得投资
Hu Xiu· 2025-07-23 00:17
硅谷风投 a16z 已经迫不及待将其定义为新风口,在其近期发表的一篇文章中直言,"21 世纪初是谷歌 AdWords 的套利时代,2010 年代属于 Facebook 的定向 引擎,2025 年,轮到 LLM(大语言模型) 和 GEO(生成式引擎优化)了。" 在硅谷最大孵化器 YC 最新的 Demo Day 上,两家同类公司的出现,似乎印证 着这个判断。GEO,是如今全球创投圈一个热门话题。 对于这样诞生于生成式AI之上的"新物种",业界对此基本属于——"干中学"的态度。 回归最简单的商业逻辑就会发现,这类创业公司能做到多大、这类商业模式能持续多久,或许都非常有限。 "AI 原生 100" 是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「 07 」篇文章。 "这更像场'猫鼠游戏'。" 嘉和资本 CEO 袁子恒直言。这些公司试图破解大模型的黑箱,帮品牌优化 AI 推荐权重,但底层算法的每次调整,都可能让之前的 努力归零。 当 ChatGPT 的周活用户冲破 10 亿大关时,一场静悄悄的权力转移正在发生 —— 超过 60% 的消费者开始绕过谷歌、百度,直接向 AI 助手询问商品信息。 但品牌们却像蒙眼的 ...
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!
自动驾驶之心· 2025-07-22 12:46
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 西湖大学、小米汽车、浙江大学 最新的工作! DriveMRP:合成高危数据+视觉提示,事故识别率从27%飙至88% ! 如果您有相 关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhiyi Hou等 编辑 | 自动驾驶之心 背景与核心目标 自动驾驶在端到端技术上虽然发展迅速,但在长尾场景(如罕见高风险事件)中,准确预测 ego 车辆未来 运动的安全性仍面临巨大挑战。现有轨迹评估方法多输出单一奖励分数,无法解释风险类型,难以辅助决 策算法采取预防措施。 本文核心目标在于:通过合成高风险运动数据,增强视觉语言模型(VLM)的运动风险预测能力,同时实 现风险类型识别与原因解释,为自动驾驶的可靠性和决策优化提供基础。 1. 规则基方法 :依赖外部世界模型和感知模型预测其他车辆未来位置,再基于预定义规则计算分数 (figure 1(a))。但这类 ...
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 12:46
以下文章来源于深蓝AI ,作者迟浩瀚 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 迟浩瀚 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 推荐语:自动驾驶领域的视觉-语言-动作(VLA)模型虽前景可期,却在非结构化边界场景中表现欠佳,主要归因于针对性基准数据的稀缺。为此,这 篇研究推出Impromptu VLA解决方案。核心贡献在于构建了Impromptu VLA数据集:该数据集包含8万余条精细构建的视频片段,提炼萃取自8个开源 大规模数据集中的200余万条原始素材。 本文由论文一作迟浩瀚 论 文题目: Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models 论文作者: Haohan Chi, Huan-ang Gao, Ziming Liu, Jianing Liu, Chenyu Liu, Jinwei Li ...
最容易被AI替代的是这三类创业者
混沌学园· 2025-07-22 10:07
Core Viewpoint - The rise of AI, particularly generative AI, is significantly transforming the job market and entrepreneurial landscape, posing threats to certain types of businesses while also creating new opportunities for others [1][4][43]. Group 1: Impact of AI on Employment - According to McKinsey's 2023 report, by 2030, approximately 12 million people in the U.S. may need to change jobs due to AI automating 60%-70% of tasks, especially in white-collar jobs [2]. - The World Economic Forum warns that AI could lead to the disappearance of 83 million jobs globally in the next five years, despite the emergence of 69 million new jobs, resulting in a net loss of 14 million jobs [3]. Group 2: Vulnerable Entrepreneurial Segments - Entrepreneurs relying on repetitive labor are at high risk, as AI excels in standardizing and automating tasks such as data entry and document organization [8][9]. - Content creators lacking originality and deep insights are also vulnerable, as AI-generated content can easily surpass template-based or "rewritten" content [12][13]. - Businesses that cater to "pseudo-needs" or low-value services are threatened, as AI can streamline processes and eliminate inefficiencies, making these services redundant [17][18]. Group 3: Resilient Entrepreneurial Segments - Entrepreneurs who can integrate AI tools to create new business models are well-positioned for success, leveraging AI to enhance efficiency and decision-making [24][25]. - Those skilled in brand building and community engagement can thrive, as AI struggles to replicate human emotional connections and storytelling abilities [28][30]. - Businesses that require complex interpersonal interactions, such as high-end services and emotional support roles, are less likely to be replaced by AI due to the need for human empathy and adaptability [35][40].
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 08:59
首当其冲的是计算冗余问题。在 MHA (多头注意力) 架构中,每个注意力头都像一个独立的 "工作单元",各自独立地计算查询 (Query)、键 (Key) 和值 (Value) 向 量,这导致了大量的重复计算。特别是在处理长序列任务时,浮点运算次数 (FLOPs) 会呈平方级增长,严重拖慢了模型的处理效率,使得原本复杂的任务变得更 加耗时。 其次是内存瓶颈。每个注意力头都需要完整存储其对应的键值对 (KV) 缓存,这使得内存需求随序列长度和注意力头数量的增加而快速膨胀。例如,在处理长序列 时,KV 缓存的规模可以轻松突破数 GB,如此庞大的内存占用极大地限制了大型模型在智能手机、物联网设备等边缘设备上的部署能力,使其难以真正走进千家 万户。 最后是推理延迟问题。高昂的计算和内存需求直接导致了推理速度的显著下降,使得像语音助手实时响应、在线翻译无缝切换等对延迟敏感的实时应用难以提供 流畅的用户体验。尽管业界的研究者们曾尝试通过 Multi-Query Attention (MQA) 和 Grouped-Query Attention (GQA) 等方法来优化效率,但这些方案往往需要在性能 和资源消耗之间做出艰难 ...
技术狂热过后,人形机器人下半场开拼:谁的订单先落地?
硬AI· 2025-07-22 08:22
大摩认为,市场已对人形机器人的技术预期充分定价,投资者现在最关心的问题是:谁能率先实现订单落地并验证商业价 值。大多数集成商设定2025年交付数百至数千台的目标,落地情况将成为衡量行业进展的关键指标。 投资者现在最关心的问题是:谁能率先实现订单落地并验证商业价值。大摩预计,随着政府持续支持,预 计2025年下半年中国人形机器人订单将加速落地,同时核心技术也将有突破性进展。 01 市场动态转变: 从技术热潮到商业价值验证 硬·AI 作者 | 卜淑情 编辑 | 硬 AI 狂热的技术炒作结束后,人形机器人行业已进入商业落地关键期。 据追风交易台消息,摩根士丹利最新研究显示,2025年下半年人形机器人行业将从技术狂热阶段转向关注 实际商业落地,订单获取和实际应用将成为驱动市场情绪的决定性因素。 市场已经对技术预期充分定价。报告指出,在经历了2025年第一季度37%的强劲上涨后,由于部分集成商 下调交付目标且缺乏突破性技术进展,行业在3-7月期间出现了6%的回调。 2025年第一季度,人形机器人价值链迎来一波强劲上涨,中国相关股票从1月至3月上涨37%,明显跑赢 MSCI中国指数。这主要由以下几个因素推动: 科技巨头纷 ...
技术狂热过后,人形机器人下半场开拼:谁的订单先落地?
Hua Er Jie Jian Wen· 2025-07-22 06:40
狂热的技术炒作结束后,人形机器人行业已进入商业落地关键期。 2025年第一季度,人形机器人价值链迎来一波强劲上涨,中国相关股票从1月至3月上涨37%,明显跑赢MSCI中国指数。这主要由以下几个因素推动: 科技巨头纷纷入局:华为、英伟达、谷歌、Meta等科技公司纷纷加大对人形机器人的投入,增强了市场对行业前景的信心。 企业设定高目标:特斯拉CEO马斯克设定2025年生产5,000-10,000台Optimus机器人,Figure AI宣布四年内交付10万台。中国的爱智机器人、优 必选等也宣布2025年将交付数百至数千台。 技术取得突破:多家公司发布视觉-语言-行为(VLA)模型,显示机器人智能水平有显著提升。 政府政策支持:例如宇树科技的H1机器人亮相央视春晚,政府工作报告首次提及"具身智能"。 然而,3月至7月,随着市场转向关注实际落地情况,相关股票出现回调。主要原因是: 据追风交易台消息,摩根士丹利最新研究显示,2025年下半年人形机器人行业将从技术狂热阶段转向关注实际商业落地,订单获取和实际应用将成为驱动 市场情绪的决定性因素。 市场已经对技术预期充分定价。报告指出,在经历了2025年第一季度37%的强劲 ...
Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”
量子位· 2025-07-22 06:39
一水 发自 凹非寺 量子位 | 公众号 QbitAI Kimi K2称霸全球开源模型的秘籍公开了! 没错,就是 整整32页的Kimi K2官方技术报告 。业内人士第一波repo已火速出炉: 这篇论文中有很多令人印象深刻的内容。 nice!它分享了很多关于Kimi (以及中国实验室) 对这些模型的看法 (他们关注/优化的内容) 。 Kimi K2,作为Kimi最新MoE基础模型,总参数1T,激活参数32B,能力领先性尤其展现在代码、Agent、数学推理任务上。 上线仅一周,它就在竞技场千人盲评中击败DeepSeek, 登顶全球最强开源模型 ,而且能媲美Grok 4、GPT 4.5等顶尖闭源模型。 那它是咋做到的呢? 别急,这篇最新论文来给答案了—— 一次性大公开Kimi K2的训练过程及"秘密配方" 。 包括但不限于大家已经热议的:MuonClip优化器、大规模Agentic Tool Use数据合成、通用强化学习等等。 下面详细来看。 都有哪些技术亮点 首先,Kimi团队认为,现如今大语言模型正从静态模仿学习向Agentic Intelligence转型。 这意味着,模型需要具备在复杂动态环境中自主感知、规划 ...