Workflow
多模态技术
icon
Search documents
Agent开始“卷”执行力,云厂商的钱包准备好了吗?
第一财经· 2025-06-20 03:32
2025.06. 20 本文字数:2076,阅读时长大约4分钟 作者 | 第一财经 吕倩 本周又是Agent(智能体)热度持续的一周。北京时间6月19日,国内大模型初创企业Minimax发布能够 完成长程(Long Horizon)复杂任务的通用智能体MiniMax Agent,多步规划专家级解决方案、拆解任 务需求、执行多个子任务从而交付最终结果。 大模型干活更强了 在山姆·奥尔特曼的表述中,新模式的显著特性已不是性能多么好,而是干活多么强。 即将发布的GPT-5将不再是一个单一功能的产品,而是一个经过架构融合的综合性产物,该变化折射的 是山姆对AGI(通用人工智能)定义理解的变动,他表示,现在AI的发展已远远超过五年前行业根据软件 认知能力而提出的AGI定义。当下更需要考虑的是,AGI需要什么?山姆认为是能够自主发现新科学或极 大提高人们使用工具发现新科学的能力,例如当下正火的AI编程产品。 一位二级市场券商分析师对记者表示,大模型真正产生价值始于Agent开始为人类工作,虽然行业还处于 非常早期的阶段。过去的AI也具备提效功能,但存在功能单一且依赖人类指导、缺乏通用性和自主性等问 题。Agent将自然语 ...
Agent开始“卷”执行力,云厂商的钱包准备好了吗?
Di Yi Cai Jing· 2025-06-19 13:55
大模型行业军备竞赛从一级市场的泡沫化高额估值,落地到更底层的算力基础设施建设。 本周又是Agent(智能体)热度持续的一周。北京时间6月19日,国内大模型初创企业Minimax发布能够完成长程(Long Horizon)复杂任务的通用智能体 MiniMax Agent,多步规划专家级解决方案、拆解任务需求、执行多个子任务从而交付最终结果。 大模型干活更强了 在山姆·奥尔特曼的表述中,新模式的显著特性已不是性能多么好,而是干活多么强。 即将发布的GPT-5将不再是一个单一功能的产品,而是一个经过架构融合的综合性产物,该变化折射的是山姆对AGI(通用人工智能)定义理解的变动,他 表示,现在AI的发展已远远超过五年前行业根据软件认知能力而提出的AGI定义。当下更需要考虑的是,AGI需要什么?山姆认为是能够自主发现新科学或 极大提高人们使用工具发现新科学的能力,例如当下正火的AI编程产品。 一位二级市场券商分析师对记者表示,大模型真正产生价值始于Agent开始为人类工作,虽然行业还处于非常早期的阶段。过去的AI也具备提效功能,但存 在功能单一且依赖人类指导、缺乏通用性和自主性等问题。Agent将自然语言转化为具体指令 ...
科大讯飞回应:机器人超脑平台如何收费及未来功能升级计划
Sou Hu Cai Jing· 2025-06-18 11:13
近日,科大讯飞在投资者关系平台上积极回应了投资者的多项关切。 针对投资者询问的机器人超脑平台收费模式,科大讯飞董秘详细解释称,该平台结合了视听融合的多模感知交互和先进的大模型技术,通过软硬 件一体化的方式,为机器人提供全新的交互体验。在收费方面,平台主要采取按台授权与服务定制相结合的方式。具体而言,按台授权是指根据 每台机器人的使用,收取标准化的授权费用;而服务定制则是根据客户的个性化需求,如功能模块的选择、特定场景的适配等,提供定制化的收 费服务。 有投资者建议科大讯飞能将公司高层在各种场合的讲话以及参与的活动、论坛、发布会等发言提供全程回放,并希望这些回放能发布在微博、B 站、抖音等平台上,以便小股东能够及时了解公司情况,持续跟踪公司动态。对此,科大讯飞董秘表示,公司非常期待公司的对外发言能够覆盖 到每一位投资者、合作伙伴和客户。但由于不同活动主办方对视频内容的录制、发布及版权等事项存在差异,公司将在遵守合作方规则和合规的 前提下,尽可能将可公开的活动内容通过官方媒体平台及时发布。同时,公司也将持续优化投资者沟通方式,提升信息传达的覆盖面和便利性。 在技术创新方面,投资者对科大讯飞的讯飞星火大模型提出了期 ...
李彦宏的电商梦,靠罗永浩们的数字人能圆吗?
Sou Hu Cai Jing· 2025-06-18 09:55
Core Insights - The digital human technology used in the live stream of Luo Yonghao has set a new record in digital human live streaming, attracting over 13 million viewers and generating a GMV of 55 million yuan, surpassing previous live streams by Luo Yonghao himself [2][3] - Baidu aims to establish Luo Yonghao's digital human as a benchmark in the e-commerce live streaming industry, leveraging AI advancements to enhance user interaction and engagement [2][8] - The cost of creating digital humans has been reduced to around 1,000 yuan, which is 80% lower than the average cost of live streaming with real hosts, indicating significant potential for scalability in the digital human market [8][10] Company Strategy - Baidu's e-commerce team has been working on the digital human project for about three weeks, focusing on refining the technology to meet Luo Yonghao's high standards for humor and interaction [3][6] - The digital human live stream is part of Baidu's broader strategy to capitalize on AI technology to transform the e-commerce landscape, with plans to enhance the capabilities of digital humans and reduce costs further [10][11] - Luo Yonghao has been appointed as the Chief Experience Officer for Baidu's e-commerce platform, indicating a deeper collaboration between him and Baidu in promoting digital human technology [10][12] Market Potential - The digital human live stream has shown promising results, with half of the live streams outperforming real hosts in terms of GMV and conversion rates, suggesting a strong market acceptance [8][10] - Baidu's digital human initiative is seen as a potential game-changer in the over 5 trillion yuan live e-commerce market, with the company aiming to attract more small and medium-sized businesses to utilize this technology [15] - The integration of digital humans into e-commerce is expected to enhance user experience and transaction efficiency, positioning Baidu to compete more effectively in the market [14][15]
从预训练到世界模型,智源借具身智能重构AI进化路径
Di Yi Cai Jing· 2025-06-07 12:41
6月6日至7日,第七届智源大会在北京举行,被"众星捧月"的嘉宾从去年的月之暗面创始人杨植麟变更为今年的宇树科技CEO王兴兴。在多位与会人士看 来,一轮又一轮明星公司或创业者崛起的背后,AI(人工智能)越来越快的发展速度是核心驱动力。 参与主论坛的图灵奖得主、深度学习领域奠基人之一的蒙特利尔大学教授Yoshua Bengio称:"我们低估了AI进步的速度。"面壁智能CEO李大海也在采访中 表示,技术的发展是非线性的,大模型作为基础技术与基础设施,待未来发展到一定程度后,行业一定会更关注基础设施之上的应用,这是行业合理规律。 今年智源大会传递出的AI重点从大语言模型的预训练,更迭为世界模型的培育发展。智源研究院院长王仲远表示,AI正加速从数字世界走向物理世界,也 因此,智源研究院宣布从"悟道"时代迈入"具身智能"探索阶段。 何为世界模型 对于世界模型的精准定义,王仲远在采访中表示,目前世界范围内暂时没有共通的定义,已存在的名称包括"空间智能""时空智能"等。此次智源研究院发布 的一系列相关产品与技术,也代表了自身对世界模型的理解。 AI从数字世界跨向物理世界时必须突破数字世界的隔阂。 王仲远认为,大模型技术还远没 ...
北京智源大会在京开幕,智源“悟界”系列大模型发布
6月6日,北京智源大会在京启幕。伴随多项全球前沿的人工智能成果发布,包括图灵奖获得者、明星AI企业创始人在内的数百位全球青年科学家、人工智 能顶尖学者和产业专家齐聚北京,在这场科技盛会中共同绘制人工智能产业未来"导航图"。 AI"破壁"加速进入物理世界 当一个咖啡杯放在桌子的边缘,人和AI会各自作何反应?不少AI大模型看到的可能是"白色的咖啡杯在桌上,上面有一些文字。"而更具时空预测能力的人类 则会基于现实信息进行预判——"咖啡杯在桌子的边缘,很危险",并知道需要从桌子从外向内的方向拿取杯子来避免它掉落。 "人工智能正在加速从数字世界走向物理世界,这是对大模型技术发展趋势的判断,也是'悟界'系列大模型推出的底层原因。"智源研究院院长王仲远说,AI 从数字世界跨向物理世界时必须突破两者之间的隔阂,其中最重要的隔阂和边界就是对空间和时间的感知。而此次智源发布的原生多模态世界模型Emu3, 就具备这种在物理世界中理解和推理的能力。 据悉,目前全球众多人工智能机构都在积极探索原生多模态技术。什么叫"原生"?人类与现实世界的互动,通常需要涉及语言、视觉和音频等被业界称 为"多模态"的信息。王仲远告诉记者,过去的多模态大 ...
腾讯AI,加速狂飙的这半年
雷峰网· 2025-05-27 13:15
" 从团队重构到业务狂飙,腾讯AI 驶入快车道。 " 作者丨胡敏 编辑丨周蕾 "不宜操之过急,还是要修炼好内功。" 去年,各家都在大张旗鼓地讲AI故事,然而腾讯却保持一贯的低调。这种状态,也让各种质疑声音接踵而 来,市场不乏有"腾讯可能会在这一波AI浪潮中掉队"的观点。 但这种预判并未维持多久,到今年,从腾讯元宝、QQ浏览器、ima并入CSIG事业部,再到腾讯混元大模 型相关团队的组织架构变革后,似乎腾讯AI的产业落地开始走上了快车道。 "今年上半年腾讯的AI战略落地速度远超我的预期。"一名二级市场分析师曾对雷峰网说道,今年第一季度 腾讯的资本开支达274.8亿元,同比增长91%。这预示着腾讯正在加速集聚资源、排兵布阵投入AI攻坚 战。 5月21日,腾讯云在北京举办了AI产业峰会,会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生,腾讯云副总裁、腾讯混元大模型技术负责人王迪,以及腾讯云副总裁、腾讯云智能负责人、优图 实验室负责人吴运声几位AI落地的核心人物都出现在了现场,并且透露了不少有关腾讯上半年AI落地的进 度。 腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生 这场峰会让人进一步描摹 ...
谷歌IO大会点评
2025-05-21 15:14
谷歌 IO 大会点评 20250521 tokens 数量是传统 AI Overview 的两到三倍。此外,全美范围内全面推出增 强现实试穿功能,使消费者可以通过拍摄全身照片来虚拟试穿衣物。 谷歌在原生多模态方面有哪些进展? 在原生多模态方面,谷歌展示了 native language understanding 功能,该 功能支持原生语音和音频输出,可以实现机器人交流时声音由大变小、悄悄话 以及无缝切换语言。此外,还演示了视频和图像生成产品 ImageFour 的进一 步更新。这些进展显示出谷歌在多模态技术上的持续创新。 谷歌 Lens APP 新增哪些功能? 摘要 谷歌正积极应对 ChatGPT 等竞争对手的挑战,通过应用层面的创新, 如提升 AI 搜索器比例和推出升级版 AI 模式,显著增强了其 AI 搜索产品 的竞争力,月活跃用户已达 15 亿。 谷歌在原生多模态技术上取得显著进展,包括 native language understanding 功能和 ImageFour 的更新,展示了其在语音、音频、 视频和图像生成方面的持续创新能力。 Google Lens APP 新增了 Project Xt ...
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
是说芯语· 2025-05-08 23:32
申请入围"中国IC独角兽" 半导体高质量发展创新成果征集 五一节后第一口瓜,曝阿里通义实验室高层人员离职变动! 据"科创版日报" 、"财经头条"等多个渠道爆料,阿里巴巴通义实验室应用视觉团队负责人薄列峰(职 级 P10),已于 4 月 30 日低调离职。他曾带领团队做出通义 App 上全民舞王「兵马俑跳科目三」等爆 款功能。 阿里原应用视觉团队负责人薄列峰 知情人士透露,他已经加入某互联网大厂( 市场普遍猜测他可能加入字节跳动或腾讯 ),base 美国, 担任多模态模型部副总经理,负责部门整体工作,直接向公司副总裁汇报。消息称,该大厂刚刚进行了 架构调整。 薄列峰并不是阿里通义实验室今年出走的第一位高层员工。今年 2 月 15 日,彼时通义实验室语音团队 负责人鄢志杰离职。他是达摩院成立之初核心的十三位 "扫地僧" 之一。鄢志杰离职后,阿里通义实验 室至今未曾对外公开新任语音团队负责人。如今,薄列峰离职后的接替人选也成谜。截至量子位推送发 出前,阿里暂未对此事作出回应。 令市场不解的是,薄列峰为何在阿里大模型发展势头正劲之 时,选择递交辞呈? 薄列峰的离职或在短期内对阿里的大模型战略实施带来诸多挑战。一方面, ...
巨头专家聊Agent与Coze
2025-04-24 01:55
巨头专家聊 Agent 与 Coze2025042320250416 摘要 • 低代码 AI 智能体开发平台提供一站式解决方案,支持 30 秒无代码生成 chatbot,集成近 500 款插件,保障用户数据安全与隐私,为企业提供高 效便捷的 AI 应用开发能力。 • 扣子空间作为 AI 协同办公生态产品,通过 MCP 协议与专家认证,自动化 工作流,动态调用 API,严格权限管理和数据加密,显著提升工作效率并 保障用户隐私。 • MCP 协议已与金融、地图等领域头部厂商及专家级模型 API 集成,覆盖全 行业,40%能力由字节孵化,60%由开发者贡献,通过审核机制确保数据 安全。 • 字节跳动正内测基于豆包的多模态完全体模型,支持文本、图像和语音交 互,重点突出图片和视觉理解,通过情感分析定位人物内心性格及情感表 达。 • 开发者生态系统已构建,应用商店提供近 800 款 AI 应用,开发者可获得 70%收益分成,目前已有近 15 万家开发者接入,覆盖各行各业,并通过 广告等形式推广。 Q&A 扣子和 Agent 技术结合对隐私的影响如何? 扣子和 Agent 技术的结合在隐私保护方面具有显著优势。首先,扣子 ...