Workflow
AI科技大本营
icon
Search documents
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 02:47
出品 | CSDN(ID:CSDNnews) 以下文章来源于CSDN ,作者新程序员编辑部 CSDN . 成就一亿技术人 作者 | 新程序员编辑部 具身智能,作为近年来人工智能领域的热点之一,成为产业界和学术界重点关注的方向。特别是在人形机器人这个载体上,它所承载的感知、运动、决 策等能力,让具身智能从概念逐渐走向落地。但与此同时,也有不少值得深入探讨的问题浮出水面:为什么具身智能的发展似乎格外偏爱"人形"?是否 只有模仿人类形态,才是实现智能的最佳路径?在面对数据、算力、模型架构等现实挑战时,我们究竟处于怎样的阶段?距离真正的通用机器人,还有 多少"里程"要走? 基于此,CSDN《万有引力》栏目特别策划了一期以"十问具身智能:我们离通用机器人还有多远?"为主题的深度对话,邀请了 北京邮电大学人工智能 学院副教授陈光@爱可可-爱生活、深圳市人工智能与机器人研究院副研究员夏轩、Roboraction.AI 首席执行官黄浴 ,在栏目主理人 CSDN &《新程序 员》执行总编唐小引主持下, 三位专家将从技术演进、研究现状、产业应用等多个角度切 入,带大家一同拆解具身智能面临的"关键问题",看清这条通 往未来机器人的 ...
智元机器人发布并开源世界模型EVAC与评测基准EWMBench,助力具身世界模型加速进化!
AI科技大本营· 2025-05-22 02:47
近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型EVAC (EnerVerse-AC),以及具身世 界模型评测基准EWMBench。这两大创新成果现已全面开源,旨在构建"低成本模拟 - 标准化评测 - 高效迭代"的全新开发范式,持续赋能全球具身智 能研究,加速技术落地与产业发展。 直面行业瓶颈,破解具身智能研发的"双重枷锁" 当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于 轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人依托深厚的技术积累,精准洞察行业痛点,在去年发布的世界模型 架构EnerVerse基础上推出创新成果:基于动作序列驱动的世界模型 EVAC与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭 环,重新定义具身世界模型研发范式。 技术突破:EVAC—— 全球首个机器人动作序列驱动的世界模型 EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。 核心能力:从 "物理执行" 到" ...
2025 全球产品经理大会正式官宣,聚焦 AI 产品实战,全景呈现未来产品图谱!
AI科技大本营· 2025-05-21 06:10
在 AI 光环的放大效应之下,今天的产品经理可能比程序员更重要。 "用户体验至上。"这是乔布斯在产品设计中始终坚持的核心信条。他曾说:"人们并不知道他们想要什么,直到你把它摆在他们面前。"在 AI 大模型时 代,这一理念显得尤为重要。产品经理的挑战不再只是"做出来",而是如何将技术真正转化为用户价值:让智能真正可感,让体验真正可用。 8 月 15–16 日,由 CSDN & Boolan 联合举办的「2025 全球产品经理大会」将在北京威斯汀酒店召开。围绕生成式 AI 与智能体产品设计、商业落地 与用户体验创新等 12 大专题方向,展开为期两天的深度分享与思维碰撞。 这是一次关于"产品与 AI 如何共创未来"的深度讨论,也是一场专属于产品 人的智能时代聚会。 一场聚焦 AI 产品未来的行业盛会,亮点前瞻: AI 时代的产品全景图 12 大核心专题揭晓 本届大会共设 12 大专题板块,全景式呈现 AI 驱动下的产品实践路径与战略方法: 1.生成式人工智能产品|GenAI Products AI 产品发展前沿深度解析 全球化实战案例干货分享 增长与创新策略碰撞交流 用户需求新思维解码洞察 从模型能力到交互体验,探 ...
AI若解决一切,我们为何而活?对话《未来之地》《超级智能》作者 Bostrom | AGI 技术 50 人
AI科技大本营· 2025-05-21 01:06
在人工智能的世界,有一群人正深耕于推动通用人工智能(AGI)从科幻走向现实。CSDN、《新程序员》特别策划 " AGI 技术 50 人 "访谈栏目 ,挖掘 AI 背后的思考,激荡 AGI 的智慧,走近那些在 AI 领域不断探索、勇于创新的思想领袖和技术先锋们的心路历程。 年初 DeepSeek 爆火,引起 X、谷歌、OpenAI、Anthropic 的顶级模型大战,随后又有 Manus 通用 Agent 问世、全世界的程序员拜入 Cursor 门下……在 2025 的 AI 炮火中,有一个名字总在提醒我们,需要时不时地从日常的喧嚣中抬起头,去思考一些更长远、也更根本的问题。 作者 | 王启隆 出品丨 《 新程序员 》编辑部 Nick Bostrom ,一位出生于瑞典,后来在牛津大学开启其重要学术生涯的哲学家。他生于 1973 年,早年似乎并不安于传统学校教育的束缚,甚至有 资料显示他高中最后一年是在家完成学业的。但这反而让他得以广泛涉猎人类学、艺术、文学乃至科学等多个领域,在伦敦求学期间还曾尝试过单口喜 剧。 2005年,Nick Bostrom 在牛津大学创办了人类未来研究所(Future of Human ...
谷歌发布最强 AI“全家桶”、一句话就让AI拍大片!这一夜,谷歌Gemini贯穿始终,网友:果然Android“靠边站”了
AI科技大本营· 2025-05-21 01:06
整理 | 郑丽媛 回顾 上一次 I/O 大会至今,Sundar Pichai 表示 谷歌已发布了十多个新模型和研究突破,并推出了 20 多个重 大 AI 产品与新功能。 他解释道, " 我 们的目标很简单:让最优秀的模型和产品尽快触达用户, 因此 我们正以前所未有的速度推进发布节奏。 " 他指出 ,相比第一代 Gemini 1.0 Pro, 如今的 Gemini 2.5 Pro 几乎 发生了 "跃迁式"变化: 在 LMArena 榜单上横扫各大类别 、 在多项基准测试中 刷新 纪录; 在代码领域也取得 巨大进展, 登顶 WebArena 榜首。 出品 | CSDN(ID:CSDNnews) 昨天, 微软在 Build 大会上刚刚甩出"Windows 子系统"和"Copilot 开源"的重磅炸弹 ,整个开发者圈还没从热议中缓过劲来,转眼今天凌晨,谷歌就 在 I/O 大会上掏出了自己的"王炸"牌——一场 AI 盛宴,正式上演! 从凌晨 1 点开始,这场 持续了 2 小时的发布会彻底印证了网友的预测: 曾经占据谷歌 I/O 大会中心的 Android 系统正在"靠边站",C 位已经留给了 更具革命性的 AI。 无论 ...
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 01:02
「具备更深层次理解能力的视觉领域基础模型(可能带来视觉的"GPT-3时刻"),有望在未来 1-2 年内出现。」 对话 | 唐小引,CSDN&《新程序员》执行总编 嘉宾 | 段楠, 阶跃星辰 Tech Fellow 责编丨张红月 出品 | AI 科技大本营(ID:rgznai100) 这场由 AI 驱动的视觉内容革新浪潮中,阶跃星辰的 Tech Fellow、前微软亚洲研究院资深研究员段楠,正站在探索的前沿。其团队在今年 2 月和 3 月 开源两个重要的视频生成模型 —— 30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V , 在 AI 视频生成领域引起了广泛关注。 段楠清醒地指出,尽管当前的视频生成技术(如 Diffusion 模型)已能产出惊艳的视觉片段,但我们可能正触及其能力的"天花板",真正的、具备深度 理解能力的视频乃至多模态基础模型,其革命性的突破尚在孕育之中。 段楠,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理( ...
WSL、Copilot皆重磅开源,深夜炸场的微软给我们带来了哪些惊喜?
AI科技大本营· 2025-05-20 01:02
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 每年初夏,科技圈总会迎来一波"新品大秀",尤其是 5 月和 6 月几乎成了开发者的"小春晚"的热闹时刻——微软 Build、Google I/O、苹果 WWDC 轮 番登场,带来一大波新技术、新工具,想方设法吸引开发者的注意。今年是微软打头阵,Build 2025 大会于 5 月 20 日凌晨 12:05 率先登场。 这场大会上,微软 CEO 纳德拉和 CTO Kevin Scott 亲自上阵,令人意外的是,一直不太对付的 OpenAI CEO Sam Altman 和特斯拉 CEO 马斯克,还 有英伟达 CEO 黄仁勋,也都"出现"在这场大会上,只是以线上视频接入的形式,分别与纳德拉来了场关于合作、大模型、芯片等维度的简短对话。 整体来看,AI 无疑是微软最重要的战略方向。不过,今年「开源」也成了另一大贯穿全场的关键词,其不仅将 VS Code 上 Copilot 的核心功能开放了 出 来,就连 适 用于 Linux 的 Windows 子系统( WSL)也重磅开源了,实属令人 ...
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营· 2025-05-19 08:05
CLIP 看不清的细节,FG-CLIP 看懂了 作者 | 谢春宇,王斌,360人工智能研究院 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 还在为搜图不够精准、推荐不够懂你而烦恼? 360 人工智能研究院发布的全新 FG-CLIP(Fine Grained CLIP) 模型,让 AI 也能像"老司机"一样,练就"眼观六路"的本领。 有了 FG-CLIP,它能瞬间辨别 "穿着浅蓝色夹克的男人" vs "穿着草绿色夹克男人"、" 陶瓷茶杯"与"玻璃茶杯" 的细微差别,图片被裁切也不怕,照样 精准识别目标,甚至连那张藏在小狗身后、位于画面角落的 浅棕色木凳子 ,它也不会放过。 大家平时刷到的那些"神操作" 其实都离不开它:比如用手机输入文字就能生成动漫插画、风景海报的绘图软件(Stable Diffusion、可图),还有能 把 "小猫追蝴蝶" 的文字描述变成动态视频的工具(Sora、即梦),背后都需要这位 "翻译官" 先把文字和图片的信息 "翻译" 成机器能懂的语言,让两 者 "对上频道"。 不只是这些有趣的应用,咱们日常生活里处处都有它的影子: 图文跨模态模型 显式双塔结构解耦: 突破传 ...
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 08:16
人像摄影风格 动物特写 AI图像生成进入"毫秒级"时代。 5月16日,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),基于模型架构创新,在行业内率先实现实时生图,在画面质感超写实的基础上, 带来全新的AI生图交互体验。模型于即日起在腾讯混元官方网站上线,并对外开放注册体验。 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领 先模型,在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了 传统"抽卡—等待—抽卡"的方式,带来交互体验革新。 除了速度快以外,腾讯混元图像2.0模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图 像中的"AI味" ,真实感强、细节丰富、可用性高。 在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准 GenEval(Geneval Bench)上,腾讯混元图像2.0模型准确率超过95%,远超其他同类模型。 | | | | | | | 文生图客观指 ...
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
AI科技大本营· 2025-05-16 01:33
【CSDN 编者按】 在 AI 技术飞速发展的今天,OpenAI API 已成为众多 SaaS 开发者手中的得力工 具。但高额的 Token 消耗,也让成本控制成为开发者不得不面对的难题。本文作者以一个月消耗 94 亿 Token 的实战经历,毫无保留地分享了优化成本的关键经验。 原文链接 : https://www.reddit.com/r/LLMDevs/comments/1kigp51/spent_9400000000_openai_tokens_in_april_ here_is/ 作者 | tiln7 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 大家好!刚刚 结束了 一个 对 我们 SaaS 产品 来说 强度 非常 大的 OpenAI API 调用 月, 我 想 顺 便 分享一些踩坑总结。 通过下面这几条优化策略, 我们成功将 成本 降低了 43%! 希望这能帮到 同样也在用 OpenAI API 的开发者朋友们。 选对模型是关键中的关键 用好提示词缓存(Prompt Caching) 这点完全是意外收获。OpenAI 平台会自动缓存完全一致的提示词(prompt),在重复调用相 ...