Workflow
多模态智能体
icon
Search documents
Grok-4,马斯克口中地表最强AI
Sou Hu Cai Jing· 2025-07-11 12:58
撰文 / 涂彦平 编辑 / 黄大路 2025年7月10日,马斯克旗下xAI公司发布了AI模型Grok-4。这个被他称为"世界上最聪明的AI"在各个AI基准测试中开 启了屠榜模式。 先说说xAI,这家公司2023年7月12日成立,到今天将将两年。 公司创立之初,马斯克曾表示,构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以用AI去帮助人们 解决复杂的科学和数学问题并且理解宇宙。 2025年1月16日,xAI上线推出网页版Grok AI聊天机器人。2月17日,xAI发布Grok-3聊天机器人。然后是刚刚,发布了 新一代Grok-4大模型。 目前,Grok-4已经开启订阅。Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,前者月费30美元,后者月费300美元。 这是目前最昂贵的AI订阅计划。Grok-3则维持免费开放。 设计 / 柴文静 失之东隅,收之桑榆。这句话放在马斯克身上再贴切不过了。 灰溜溜从白宫离开,与特朗普撕破脸,被大而美法案背刺,气得建立美国党,想玩政治反被政治玩。换个人都得自闭 了,但老马转头就在AI赛道上搞了把大的。 这个被马斯克自己视作地表最强的AI究竟是什么成色 ...
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 04:00
Core Viewpoint - PresentAgent is a multimodal AI agent designed to automatically convert structured or unstructured documents into video presentations with synchronized voiceovers and slides, aiming to replicate human-like information delivery [1][3][22]. Group 1: Functionality and Process - PresentAgent generates highly synchronized visual content and voice explanations, effectively simulating human-style presentations for various document types such as business reports, technical manuals, policy briefs, or academic papers [3][21]. - The system employs a modular generation framework that includes semantic chunking of input documents, layout-guided slide generation, rewriting key information into spoken text, and synchronizing voice with slides to produce coherent video presentations [11][20]. - The process involves several steps: document processing, structured slide generation, synchronized subtitle creation, and voice synthesis, ultimately outputting a presentation video that combines slides and voice [13][14]. Group 2: Evaluation and Performance - The team conducted evaluations using a test set of 30 pairs of human-made "document-presentation videos" across various fields, employing a dual-path evaluation strategy that assesses content understanding and quality through visual-language models [21][22]. - PresentAgent demonstrated performance close to human levels across all evaluation metrics, including content fidelity, visual clarity, and audience comprehension, showcasing its potential in transforming static text into dynamic and accessible presentation formats [21][22]. - The results indicate that combining language models, visual layout generation, and multimodal synthesis can create an explainable and scalable automated presentation generation system [23].
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 00:30
用于辅助科学研究的大模型智能体,正在悄然发生变化 1 背景与动机 第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence, 在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智 能体研究成果,被广泛应用于学术界与产业实践中。 过去几年,随着 LLMs 和 VLMs 的飞速进步,我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键 场域,基于这些强大模型的智能体正悄然成为科研工作流的 "新型合作者"。 在早期,AI 在科学中的角色往往是 "分析器"—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体(Computer-Using Agents,也称 CUA)的出现,这一 角色正在发生根本性转变。相比于传统的语言模型助手,这类智能体能够像人类一样操作计算机,通过图形界面点击、拖 ...
售41.87万元起,2025款奥迪A7L上市;阿里云与比亚迪合作,Mobile-Agent将接入比亚迪座舱丨汽车交通日报
创业邦· 2025-06-10 10:26
1.【极氪公布车辆防追尾提示专利,可缓解驾驶紧张情绪】天眼查财产线索信息显示,6月10日,浙江极氪智能科技有限公司、浙江吉利控股集团有限公司 申请的"车辆防追尾的提示方法及其系统及车辆"专利公布。摘要显示,该方法包括:获取当前车辆的实际车速;获取当前车辆与其在同一车道上相邻的前 方车辆的实时车距;以及基于当前车辆的实际车速及与其前方车辆的实时车距,来控制位于当前车辆后方的显示装置进行相应的动态显示,以给后方车辆进 行相应的提示作用。本申请能够给予后方车辆提醒当前车辆和其前方车辆的安全间隙变化,给后方车辆刹车留有预判时间,缓解驾驶紧张情绪。(每经网) 2.【阿里云与比亚迪合作,Mobile-Agent将接入比亚迪座舱】6月10日消息,阿里云官微表示,比亚迪与阿里云一直保持着深度合作,已在多个业务场景 广泛应用通义大模型。据悉,阿里云AI智能体Mobile-Agent将在比亚迪车机完成对阿里生态App的操控,与比亚迪智能语音团队的AI智能体联动。 Mobile-Agent采用全视觉解决方案,基于比亚迪开放座舱应用生态与AI对话系统,结合Qwen-VL的视觉识别、推理能力构建多模态智能体,可实现对座 舱屏幕智能感知 ...
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位· 2025-06-04 05:21
MetaAgentX团队 投稿 量子位 | 公众号 QbitAI 当前最强多模态Agent连验证码都解不了? 实测结果显示:人类平均成功率达 93.3% ,SOTA多模态模型平均仅 5%-40% 不等。 连 GPT-4o 都被难住了。 验证码是现阶段Agent部署的一大瓶颈 在真实网页场景中部署多模态Agent,你是否也被人机验证(CAPTCHA)卡住过? 项目团队发现,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在构建过程中都 刻意跳过了含验证码的网页 ,仿佛这道拦 路虎根本不存在。 但现实很骨感: 验证码从不是"特例",而是任何实际任务中不可回避的存在 ,尤其在电商、登录、票务等高价值网页中更是常见。 于是,Open CaptchaWorld这个测试平台以及Benchmark应运而生:一个针对多模态大模型Agent的CAPTCHA解题平台与评估基准——专 为视觉-语言-动作交互任务设计。 无论是OpenAI的o3、Anthropic的Claude‑3.7-sonnet、还是Gemini‑2.5-pro,这些最新的多模态大模型Agent尽管在静态感知任务(如图文 ...
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 04:11
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜 索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍 处于起步阶段。 因此,上海交大、上海 AI Lab、港中文、武汉大学的研究团队最新推出的多模态智能体训练方法 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning) ,专 为赋予视觉语言模型(LVLMs)以「工具智能体」能力而设计。 并且,Visual-ARFT 项目已全面开源(包含训练、评测代码,数据和模型)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性 吧! Visual-ARFT 让模型不仅能看图、能理解,还能「 动脑推理、动手操作 」,主要包括以下三个方面的核心能力: 如图 1 所示,本文的方法编写并执行 Python 代码以精准读取图像中特定区域的文本(上图),或者通过 ...