Workflow
视觉 - 语言模型
icon
Search documents
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 00:38
本文第一作者操雨康,南洋理工大学MMLab博士后,研究方向是3D/4D重建与生成,人体动作/视频生成,以及图像生成与编辑。 引言 本文共同第一作者司晨阳,南京大学助理教授,研究方向是图像/视频生成,以及生成模型的优化和加速。 在图像处理领域, 「图像 morphing」 (图像变形)是一项常见又充满创意的任务 —— 它可以让两张风格迥异的图片平滑过渡、自然融合,从而生成令人惊艳的 中间图像。你可能在动画、电影特效或照片编辑中见过它的身影。 过去,这项技术往往依赖于复杂的图像对齐算法和颜色插值规则,难以应对复杂纹理和多样语义的图像变化。近年来,虽然 GAN、VAE 等深度学习方法取得了显 著进步,但它们仍然面临训练成本高、数据依赖强、反演不稳定等问题 —— 尤其在真实世界图像中表现并不稳定。 为了实现高质量的图像 morphing,研究者们先后尝试了从图像 warping 到颜色插值,从 GAN 到 VAE,甚至使用了 Stable Diffusion 和 CLIP 等大模型。然而,即使 在最先进的方案中,训练成本高、适应性差依旧是难以回避的难题。 那么,是否可能完全抛开训练?不再依赖预训练模型或额外标注?只用 ...
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 12:17
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 自主导航无人机的基础 | UAV Type | Perception | Control Archi- | Decision System | Autonomy | Task | | Communication | | --- | --- | --- | --- | --- | --- | --- | --- | | | Modality | tecture | | Level | Adapt- | | Interface | | | | | | | ability | | | | Traditional | Monocular or | Rule-based | Deterministic. | Level 1-2 | Static | | Line-of-sight, | | UAVs | stereo RGB | flight con- | s ...
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 03:18
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出 局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规 划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型 OpenAI o3 的帮助下, DVD 以这一简洁有效的 agentic 框架 在非常具 有挑战性的 LVBench 上以 74.2% 的准确率大幅超越了之前的工作。这一工作将以 MCP Server 的形式开源。 | welcome to the leaderboard of the Lybench! Tou can prepare your submission by following the instructions; | | | | | | | | | | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | - ...
36氪精选:辅助驾驶人才争夺战:一把手下场挖人VS法务连续起诉
日经中文网· 2025-06-06 07:55
编者荐语: 日经中文网与36氪展开内容交换合作,精选36氪的精彩独家财经、科技、企业资讯,与读者分享。 以下文章来源于36氪Pro ,作者李安琪 李勤 36氪Pro . 36氪旗下官方账号。深度、前瞻,为1%的人捕捉商业先机。 车企的AI辅助驾驶人才饥渴症。 文 | 李安琪 编辑 | 李勤 封面来源 | 日经中文网 入职新公司第一天,张杨(化名)被要求"吐露"上家公司的辅助驾驶算法与代码。因没有积极配合,张杨没在新公司待多久就离 开了。 张杨的前东家是理想汽车,近年因迅速落地辅助驾驶而被行业关注,成为同行重点"探秘"的对象。 辅助驾驶的技术演化在持续喷发。从传统的基于规则的方案转向"端到端"模型路线后,车企的人才画像需求发生了极大变化,中 国车企像互联网大厂与AI公司一样渴求AI人才。 行业竞争激烈而持续。车企内部,团队赛马、立军令状、集体封闭式开发、"做不出来就换人"等,已经成为辅助驾驶部门的常 态。在高压的交付压力下,挖角高端人才、解密头部公司的技术,成为企业的一些"水下动作"。 尤其今年以来,辅助驾驶第一梯队公司的人才遭到了哄抢。有猎头人士告诉36氪,在端到端、AI大模型这波浪潮中,华为、理 想、Mom ...
「智驾」人才争夺战:帮新员工支付前司百万竞业赔偿
36氪· 2025-05-23 13:58
车企的AI辅助驾驶人才饥渴症。 " 在2024年、2025年初,理想辅助驾驶团队每一个核心人员基本上都会接到20 个以上的猎头电话。"今年5月7日,理想汽车CEO李想在AI Talk中说道。 但高端人才的争抢,往往伴随着竞业风险与法律纠纷。据36氪汽车了解,理想汽车今年起诉一名跳槽至同城企业的员工,起诉金额高达千万元级别,最终 双方选择私下和解,员工向理想赔偿了一年工资的金额款项。 类似的竞业协议诉讼并不少。据36氪了解,理想还起诉了南方一家头部新能源车企员工,双方达成和解后,后者协助员工赔付了超百万元。针对上述信 息,理想表示不予置评。 竞业、诉讼,已成为当下车企辅助驾驶、AI团队的常用手段,以此防止、延缓技术外溢,同时抑制对手发展。 当下,新能源汽车行业产品力趋向同质化,辅助驾驶是为数不多、具备特色与差异化的技术招牌。 文 | 李安琪 编辑 | 李勤 来源| 36氪汽车(ID:EV36Kr) 封面来源 | Unsplash 入职新公司第一天,张杨(化名)被要求"吐露"上家公司的辅助驾驶算法与代码。因没有积极配合,张杨没在新公司待多久就离开了。 张杨的前东家是理想汽车,近年因迅速落地辅助驾驶而被行业关注,成 ...
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 06:14
MMLongBench团队 投稿 量子位 | 公众号 QbitAI 多模态长文本理解 有综合性的评判标准了! 来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了 MMLongBench ,旨在全面评估多模态模型 的长文本理解能力。 随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Context Vision-Language Models; LCVLMs)应运而 生,使模型能够在单次推理中处理数百张图像与较长的交错文本。 但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在 长上下文环境下的 综合表现 ,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。 结果显示,无论闭源还是开源模型,在长上下文视觉-语言任务上都面临较大挑战 ,仍有巨大的提升空间。 此外,进一步的错误分析表明,(1) OCR能力和 (2) 跨模态检索能力仍然是当前LCVLMs在处理长文本时的瓶颈。 多任务多模态长文本测试集 多任务的数据构建 MMLongBench是一个 ...