多模态智能

Search documents
Grok-4,马斯克口中地表最强AI
Sou Hu Cai Jing· 2025-07-11 12:58
撰文 / 涂彦平 编辑 / 黄大路 2025年7月10日,马斯克旗下xAI公司发布了AI模型Grok-4。这个被他称为"世界上最聪明的AI"在各个AI基准测试中开 启了屠榜模式。 先说说xAI,这家公司2023年7月12日成立,到今天将将两年。 公司创立之初,马斯克曾表示,构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以用AI去帮助人们 解决复杂的科学和数学问题并且理解宇宙。 2025年1月16日,xAI上线推出网页版Grok AI聊天机器人。2月17日,xAI发布Grok-3聊天机器人。然后是刚刚,发布了 新一代Grok-4大模型。 目前,Grok-4已经开启订阅。Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,前者月费30美元,后者月费300美元。 这是目前最昂贵的AI订阅计划。Grok-3则维持免费开放。 设计 / 柴文静 失之东隅,收之桑榆。这句话放在马斯克身上再贴切不过了。 灰溜溜从白宫离开,与特朗普撕破脸,被大而美法案背刺,气得建立美国党,想玩政治反被政治玩。换个人都得自闭 了,但老马转头就在AI赛道上搞了把大的。 这个被马斯克自己视作地表最强的AI究竟是什么成色 ...
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 04:00
Core Viewpoint - PresentAgent is a multimodal AI agent designed to automatically convert structured or unstructured documents into video presentations with synchronized voiceovers and slides, aiming to replicate human-like information delivery [1][3][22]. Group 1: Functionality and Process - PresentAgent generates highly synchronized visual content and voice explanations, effectively simulating human-style presentations for various document types such as business reports, technical manuals, policy briefs, or academic papers [3][21]. - The system employs a modular generation framework that includes semantic chunking of input documents, layout-guided slide generation, rewriting key information into spoken text, and synchronizing voice with slides to produce coherent video presentations [11][20]. - The process involves several steps: document processing, structured slide generation, synchronized subtitle creation, and voice synthesis, ultimately outputting a presentation video that combines slides and voice [13][14]. Group 2: Evaluation and Performance - The team conducted evaluations using a test set of 30 pairs of human-made "document-presentation videos" across various fields, employing a dual-path evaluation strategy that assesses content understanding and quality through visual-language models [21][22]. - PresentAgent demonstrated performance close to human levels across all evaluation metrics, including content fidelity, visual clarity, and audience comprehension, showcasing its potential in transforming static text into dynamic and accessible presentation formats [21][22]. - The results indicate that combining language models, visual layout generation, and multimodal synthesis can create an explainable and scalable automated presentation generation system [23].
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 04:03
Sekai团队 投稿 量子位 | 公众号 QbitAI LeCun、李飞飞力挺的世界模型,想要实现,高质量数据是关键,也是难点。 现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展: 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构 聚焦世界生成的第一步——世界探索 ,联合推出一个 持续迭代的高 质量视频数据集项目——Sekai (日语意为"世界") ,服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构 建一个动态且真实的世界,可供用户不受限制进行交互探索。 它汇聚了 来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角真实世界或游戏视频, 配有精细化的标签, 涵盖文本描述、地点、天气、时间、人群密度、场景类型与相机轨迹等重要信息。总的来说,具有视频质量高、视频时间长、视角多样、地域 丰富及多维度标签等特点。 团队还利用Sekai部分数据,训练了一个初步的交互式视频世界探索模型—— Yume (日语意为"梦")。Yume在输入图片的基础上,通过 交 互式键鼠操作 (移动、视角转动)自回归形式地控制生成视频。 构建Sek ...
不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵
量子位· 2025-07-01 03:51
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 技术节早就不是走过场的科技圈装饰品了。 放眼中外,谁家技术底子硬、AI方向稳,基本都要拿一场技术节出来亮家底。 谷歌的I/O,是工程文化的集体涌现;苹果的WWDC,是产品哲学的年度布道;上海的WAIC,是产业方向与时代命题…… 而另辟蹊径的 淘天集团 ,连续办起一个名字听着就不走寻常路的技术节—— 硬核少年技术节。 今年6月30日至7月4日,硬核少年技术节已经办到第四届了, 并且在北京、杭州两地同步举办 ,一如既往不讲排场,讲真章。 不搞传统那一套 虽然这已经是淘天集团第四次办技术节,但依然年年起新潮,肉眼看得到的自我进化。 不变的是,今年为期一周的"硬核少年技术节4.0"依旧靠的是技术人自己一场场讲、一项项做,把能跑、能用、能打赢的技术成果摆上台。 当然,每一届都有新意。 今年尤其体现在落地形式更丰富、更贴着地表,分为AI展示场、AI交流场、AI开放场、AI比赛场,把技术铺展开来 。 其中,除了AI开放场的OpenDay在一众技术节上比较常见之外,其它的AI场设置都好玩又有料。 具体我们一一来看。 AI展示场-技术市集 AI展示场是一个巨大的技术市集。 ...
一天 15k 星,代码生成碾压 Claude,连 Cursor 都慌了?谷歌 Gemini CLI 杀疯了
AI前线· 2025-06-26 05:44
编辑 | Tina 今天,谷歌正式发布了 Gemini CLI ,这是其 AI 助手在终端环境下的一个版本。这款工具的亮点在 于其非常慷慨的免费使用配额:它支持每分钟 60 次、每天 1,000 次的模型调用。 免费配额"开挂", 逼疯 Claude? 继 2 月的 Claude Code 和 4 月的 OpenAI Codex CLI 之后,谷歌也在 6 月推出了 Gemini CLI。至 此,三大 AI 实验室都已发布了各自的"终端智能体"工具——这类 CLI 工具可以读取、修改文件,并 在终端中代表用户执行命令。 估计不少人原本以为这类终端工具会一直是一个小众方向,但现在看来这是低估了它的潜力——不少 开发者每月在 Claude Code 上的花费高达数百美元 甚至是数千美元 ,说明这个"小众市场"其实比预 想中大得多、也重要得多。 相对 Claude Code,谷歌在价格方面可谓"豪横": 使用个人 Google 账号登录,即可免费获得 Gemini Code Assist 许可。这将解锁 Gemini 2.5 Pro 模型和百万 token 上下文窗口。在此次预览期间,谷歌提供业界最宽松的调用配 额 ...
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 00:30
用于辅助科学研究的大模型智能体,正在悄然发生变化 1 背景与动机 第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence, 在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智 能体研究成果,被广泛应用于学术界与产业实践中。 过去几年,随着 LLMs 和 VLMs 的飞速进步,我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键 场域,基于这些强大模型的智能体正悄然成为科研工作流的 "新型合作者"。 在早期,AI 在科学中的角色往往是 "分析器"—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体(Computer-Using Agents,也称 CUA)的出现,这一 角色正在发生根本性转变。相比于传统的语言模型助手,这类智能体能够像人类一样操作计算机,通过图形界面点击、拖 ...
售41.87万元起,2025款奥迪A7L上市;阿里云与比亚迪合作,Mobile-Agent将接入比亚迪座舱丨汽车交通日报
创业邦· 2025-06-10 10:26
1.【极氪公布车辆防追尾提示专利,可缓解驾驶紧张情绪】天眼查财产线索信息显示,6月10日,浙江极氪智能科技有限公司、浙江吉利控股集团有限公司 申请的"车辆防追尾的提示方法及其系统及车辆"专利公布。摘要显示,该方法包括:获取当前车辆的实际车速;获取当前车辆与其在同一车道上相邻的前 方车辆的实时车距;以及基于当前车辆的实际车速及与其前方车辆的实时车距,来控制位于当前车辆后方的显示装置进行相应的动态显示,以给后方车辆进 行相应的提示作用。本申请能够给予后方车辆提醒当前车辆和其前方车辆的安全间隙变化,给后方车辆刹车留有预判时间,缓解驾驶紧张情绪。(每经网) 2.【阿里云与比亚迪合作,Mobile-Agent将接入比亚迪座舱】6月10日消息,阿里云官微表示,比亚迪与阿里云一直保持着深度合作,已在多个业务场景 广泛应用通义大模型。据悉,阿里云AI智能体Mobile-Agent将在比亚迪车机完成对阿里生态App的操控,与比亚迪智能语音团队的AI智能体联动。 Mobile-Agent采用全视觉解决方案,基于比亚迪开放座舱应用生态与AI对话系统,结合Qwen-VL的视觉识别、推理能力构建多模态智能体,可实现对座 舱屏幕智能感知 ...
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位· 2025-06-04 05:21
MetaAgentX团队 投稿 量子位 | 公众号 QbitAI 当前最强多模态Agent连验证码都解不了? 实测结果显示:人类平均成功率达 93.3% ,SOTA多模态模型平均仅 5%-40% 不等。 连 GPT-4o 都被难住了。 验证码是现阶段Agent部署的一大瓶颈 在真实网页场景中部署多模态Agent,你是否也被人机验证(CAPTCHA)卡住过? 项目团队发现,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在构建过程中都 刻意跳过了含验证码的网页 ,仿佛这道拦 路虎根本不存在。 但现实很骨感: 验证码从不是"特例",而是任何实际任务中不可回避的存在 ,尤其在电商、登录、票务等高价值网页中更是常见。 于是,Open CaptchaWorld这个测试平台以及Benchmark应运而生:一个针对多模态大模型Agent的CAPTCHA解题平台与评估基准——专 为视觉-语言-动作交互任务设计。 无论是OpenAI的o3、Anthropic的Claude‑3.7-sonnet、还是Gemini‑2.5-pro,这些最新的多模态大模型Agent尽管在静态感知任务(如图文 ...
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 04:11
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜 索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍 处于起步阶段。 因此,上海交大、上海 AI Lab、港中文、武汉大学的研究团队最新推出的多模态智能体训练方法 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) ,专 为赋予视觉语言模型(LVLMs)以「工具智能体」能力而设计。 并且,Visual-ARFT 项目已全面开源(包含训练、评测代码,数据和模型)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性 吧! Visual-ARFT 让模型不仅能看图、能理解,还能「 动脑推理、动手操作 」,主要包括以下三个方面的核心能力: 如图 1 所示,本文的方法编写并执行 Python 代码以精准读取图像中特定区域的文本(上图),或者通过 ...
张亚勤:后ChatGPT时代,中国人工智能产业的机遇、5大发展方向与3个预测
3 6 Ke· 2025-05-16 04:27
Group 1 - ChatGPT is recognized as the first AI agent to pass the Turing test, marking a significant milestone in AI development [4][6][19] - The rapid user adoption of ChatGPT, reaching over 100 million users within two months of launch, highlights its popularity and impact in the tech industry [3][6][19] - The evolution from GPT-3 to ChatGPT demonstrates substantial improvements in AI capabilities, particularly in natural language processing and user interaction [2][7][19] Group 2 - The structure of the IT industry is being reshaped by large models like GPT, with a layered architecture that includes cloud infrastructure, foundational models, and vertical models [9][11] - Opportunities for competitors in the AI large model era are significant, especially in vertical foundational models and SaaS applications [11][12][19] - The emergence of AI operating systems is being pursued by both established companies and startups, indicating a competitive landscape in the AI sector [12][19] Group 3 - The Chinese AI industry is expected to develop its own large models and killer applications, similar to the evolution of cloud computing [15][19] - The training of Chinese large models can benefit from multilingual data, enhancing their performance and capabilities [16][19] - The focus on generative AI is leading to a surge of new startups and investment in the sector, indicating a vibrant market landscape [18][19] Group 4 - The future of AI large models is projected to include advancements in multimodal intelligence, autonomous agents, edge intelligence, physical intelligence, and biological intelligence [32][33][34] - The integration of foundational models with vertical and edge models is expected to create a new industrial ecosystem, significantly larger than previous technological eras [34][35] - New algorithmic frameworks are needed to improve efficiency and reduce energy consumption in AI systems, with potential breakthroughs anticipated in the next five years [35][34]