Workflow
多模态
icon
Search documents
计算机行业重大事项点评:MiniMax:推理模型、Agent与多模态
Huachuang Securities· 2025-06-26 11:04
证 券 研 究 报 告 计算机行业重大事项点评 MiniMax:推理模型、 (维持) Agent 与多模态 事项: ❑ 6 月 17 日,MiniMax 连续五天推出 AI 新品,涉及新的推理模型、视频生成 模型、Agent、语音设计等产品。在发布周首日开源 MiniMax-M1 模型,次日 上线海螺 AI 视频生成模型,后续发布语音设计工具,覆盖推理、视频生成、 智能体等新工具。 评论: 行业研究 计算机 2025 年 06 月 26 日 推荐 华创证券研究所 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 行业基本数据 | | | 占比% | | --- | --- | --- | | 股票家数(只) | 338 | 0.04 | | 总市值(亿元) | 42,064.50 | 4.18 | | 流通市值(亿元) | 36,270.94 | 4.60 | 相对指数表现 | % | 1M | 6M | 12M | | --- | --- | --- | --- | | 绝对表现 | -2.8% | -7.9% | 35.9% | | 相对表现 | ...
Meta Platforms成功挖角OpenAI三名核心研究员
Sou Hu Cai Jing· 2025-06-26 08:02
Core Insights - Meta Platforms successfully recruited three prominent researchers from OpenAI, intensifying competition in the AI sector [1][3] - The recruited team includes Lucas Beyer, Alexander Kolesnikov, and Xiaohua Zhai, who have significant expertise in computer vision and multimodal AI [3] - This recruitment is part of Meta's "superintelligent" AI lab initiative, led by Mark Zuckerberg, aimed at developing AI systems that surpass human intelligence [3] Company Strategy - Meta is offering substantial salaries and equity incentives to attract top talent, with some signing bonuses reaching up to $100 million [3] - Zuckerberg emphasized the importance of talent in the AI era, likening it to "oil" [3] - The recruitment is seen as a critical move for Meta to achieve technological breakthroughs in multimodal AI and computer vision [3] Industry Context - Analysts suggest that Meta's aggressive hiring strategy reflects its anxiety in the AI field, especially as its Llama series models have underperformed and faced delays [4] - The global AI talent shortage is projected to reach 3 million by 2025, with fewer than 5,000 scientists capable of developing AGI [4] - Major tech companies like Meta, Google, and Microsoft are engaging in "lock-in hiring" to accumulate talent, which pressures startups to offer exorbitant salaries to survive [4] - Meta's ability to convert this recruitment into a technological advantage remains uncertain, as competition in AI relies on company culture, technological vision, and long-term strategy [4]
国产大模型高考出分了:裸分683,选清华还是北大?
量子位· 2025-06-26 06:25
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 这两天啊,各地高考的成绩终于是陆续公布了。 现在,也是时候揭晓全球第一梯队的大模型们的"高考成绩"了—— 我们先来看下整体的情况(该测试由字节跳动Seed团队官方发布): 按照传统文理分科计分方式,Gemini的理科总成绩655分,在所有选手里排名第一。豆包的文科总成绩683分,排名第一,理科总成绩是 648分,排名第二。 再来看下各个 细分科目 的成绩情况: | 模型 | 语文 | 数学 | 英语 默认听力满分 | 物理 | 化学 | 生物 | 地理 | 历史 | 政治 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 满分 | 150 | 150 | 150 | 100 | 100 | 100 | 100 | 100 | 100 | | Doubao-Seed-1.6-Thinking | 128 | 141 | 144 | 90 | ਦਰ | 76 | ਰੇਖੋ | 92 | 84 | | Gemini-2.5-Pro-0605 | 126 | 140 | 141 | ...
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 06:19
6月25日晚间,字节跳动Seed团队公布了豆包大模型1.6-Thinking版本的"高考成绩":文科总分683分, 理科总分648分。这一成绩以2025年山东高考试题作为测评基准,其中语数外使用新课标全国新一卷,政 史地/物化生则采用山东省自主命题。 最新公布的山东高考分数线显示,特殊类型招生控制线为521分,普通类一段线为441分。山东省内多位有 着多年高三带班经验的资深教师判断,根据山东省公布的2025年夏季高考文化成绩一分一段表,豆包大模 型1.6-Thinking的科目组合的赋分成绩最高能超过690分,排名在前80位左右,稳上985,并达到了冲 击"清北"的水平。 值得注意的是,本次测试还引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等国内外多款主流模型作为对比对象。成绩显示,4款大模型文理科成 绩均大幅超过了普通类一段线,显示大模型已超越众多普通考生,达到人类优秀考生的水平。 | | | MillersDorcx Seed | | | | | | --- | --- | --- | --- ...
一天 15k 星,代码生成碾压 Claude,连 Cursor 都慌了?谷歌 Gemini CLI 杀疯了
AI前线· 2025-06-26 05:44
编辑 | Tina 今天,谷歌正式发布了 Gemini CLI ,这是其 AI 助手在终端环境下的一个版本。这款工具的亮点在 于其非常慷慨的免费使用配额:它支持每分钟 60 次、每天 1,000 次的模型调用。 免费配额"开挂", 逼疯 Claude? 继 2 月的 Claude Code 和 4 月的 OpenAI Codex CLI 之后,谷歌也在 6 月推出了 Gemini CLI。至 此,三大 AI 实验室都已发布了各自的"终端智能体"工具——这类 CLI 工具可以读取、修改文件,并 在终端中代表用户执行命令。 估计不少人原本以为这类终端工具会一直是一个小众方向,但现在看来这是低估了它的潜力——不少 开发者每月在 Claude Code 上的花费高达数百美元 甚至是数千美元 ,说明这个"小众市场"其实比预 想中大得多、也重要得多。 相对 Claude Code,谷歌在价格方面可谓"豪横": 使用个人 Google 账号登录,即可免费获得 Gemini Code Assist 许可。这将解锁 Gemini 2.5 Pro 模型和百万 token 上下文窗口。在此次预览期间,谷歌提供业界最宽松的调用配 额 ...
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 03:43
RAG-Anything团队 投稿 量子位 | 公众号 QbitAI 突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化的信息孤岛转化为结构化的知识网络,为智能多模态文档分析开辟 了全新技术路径。 人工智能正在从只会处理文字发展到能够理解多种信息形式,这种变化其实很符合日常工作的实际情况。人们平时接触的信息很少是纯文字 的,更多的是包含图片、表格、图表的综合性文档。这些不同类型的内容——文字说明、图像展示、数据分析、逻辑推理等——相互配合,形 成了一个完整的信息体系。 在各个专业领域里,多模态内容早就成为主流的信息传递方式。学术论文需要用图表和公式来展示研究成果,教学材料用图解让概念更好理 解,财务报告靠各种图表来展现数据变化,医疗记录则包含大量的影像和检测数据。这些视觉化的内容和文字说明互相补充,构成了完整的专 业知识框架。 面对如此复杂的信息形态,传统的单一文本处理方式已无法满足现实各类场景的需求。各行业都迫切需要AI系统具备跨模态的综合理解能力, 能够同时解析文字叙述 ...
三年跃迁中国AI凭什么逆袭美国?
3 6 Ke· 2025-06-26 02:29
Artificial Analysis是一家做 AI 能力测评的权威机构。 先看一些具体数据和案例。自从2022年ChatGPT发布后,中美AI之间的差距一度显得很大,但到了 2025年5月,这个差距已经缩小到不足三个月了。 这意味着,中国的AI实验室和企业在这些年里取得了巨大的进步。 这份报告盘点中国 AI 在全球的位置,顺便对比一下,中美在语言模型这块到底谁强一点。 01 DeepSeek R1(2025年5月)在Artificial Analysis Intelligence Index中评分68分;阿里巴巴的Qwen3 235B A22B评分47分。 相比之下:OpenAI的o3也是68分;Gemini 2.5 Pro则是67分,你看,中美两国在这方面的差距已经非常 小了。 中国是如何实现这一跨越的呢?简单来说:技术性能提升和战略上的突破。 帮助工程师和企业精准把握AI的能力,从而做出战略决策。它的方法是:用大量数据说话,做系统性 分析。 2025 年 6 月中期,它们发布了一份:《2025 年第二季度中国 AI 亮点报告》。 举个例子: 阿里巴巴发布的QwQ 32B Preview在2024年11月 ...
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 00:30
用于辅助科学研究的大模型智能体,正在悄然发生变化 1 背景与动机 第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence, 在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智 能体研究成果,被广泛应用于学术界与产业实践中。 过去几年,随着 LLMs 和 VLMs 的飞速进步,我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键 场域,基于这些强大模型的智能体正悄然成为科研工作流的 "新型合作者"。 在早期,AI 在科学中的角色往往是 "分析器"—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体(Computer-Using Agents,也称 CUA)的出现,这一 角色正在发生根本性转变。相比于传统的语言模型助手,这类智能体能够像人类一样操作计算机,通过图形界面点击、拖 ...
RoboSense 2025 机器感知挑战赛正式启动
具身智能之心· 2025-06-25 13:52
面向现实世界的机器人感知评测任务,五大赛道,全链路挑战,全球征集解决方案! 为什么需要 RoboSense? 在机器人系统不断迈向真实世界的进程中,感知系统的稳定性、鲁棒性与泛化能力正成为制约其部署能力 的关键因素。面对动态人群、恶劣天气、传感器故障、跨平台部署等复杂环境条件,传统感知算法往往面 临性能大幅下降的挑战。 为此, RoboSense Challenge 2025 应运而生。该挑战赛旨在系统性评估机器人在真实场景下的感知与理解 能力,推动多模态感知模型的稳健性研究,鼓励跨模态融合与任务泛化方向的创新探索。 | Registration | From June 2025 | | --- | --- | | Competition Server Online | June 15th, 2025 | | Phase One Deadline | August 15th, 2025 | | Phase Two Deadline | September 15th, 2025 | | Award Decision @ IROS 2025 | October 19th, 2025 | 该赛事由新加坡国立大学、南 ...
同济大学最新!多模态感知具身导航全面综述
具身智能之心· 2025-06-25 13:52
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 | Task | PointNav | ImageNav | ObjectNav | Audio-GoalNav | | --- | --- | --- | --- | --- | | Description | Navigate to a | Navigate to a | Navigate to a | Navigate to | | | specific 3D point | location matching | specific object. | sound sources. | | | in space. | a visual image. | | | | Sensory Inputs | Visual (RGB, | Visual | Visual (Object | Visual (RGB-D) | | | Depth, ...