Workflow
机器之心
icon
Search documents
不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
机器之心· 2025-09-05 07:12
想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述 悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。 这不再是科幻电影的场景。8 月底,字节跳动数字人团队推出了 OmniHuman-1.5,提出了一种全新的虚拟人 生成框架,让虚拟人真正拥有了「思考」和 「表达」的能力。 数月前 OmniHuman-1 上线时,曾引发国内外热潮。相比前作,1.5 版本有了更多突破,不仅可以根据文字 指令让虚拟人在对口型之余做出指定动作、表情,还支持在多人场景中控制发言者以外的角色做出具体动 作。据悉,新版本很快也将上线即梦 AI。 一个「会思考」的虚拟人是什么样? 传统虚拟人总感觉差了点「灵魂」,动作机械、重复,而 OmniHuman-1.5 首次将诺贝尔奖得主丹尼尔・卡 尼曼的「双系统理论」引入 AI,通过一个由多模态大语言模型(MLLM)驱动的「思考大脑」,让虚拟人 学会了深思熟虑。 在深入技术细节之前,先用最直观的方式,感受一下这个框架创造出的虚拟人,究竟有何不同: 论文链接: https://arxiv.org/abs/2508.19209 项目主页: ht ...
被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
机器之心· 2025-09-05 07:12
| 机器之心报道 | | --- | 编辑:杨文 谷歌听劝。 上周,谷歌给 Nano Banana 改了个正儿八经的名字,网友一片哗然,疯狂吐槽新名字 Gemini 2.5 Flash Image 又长又无聊,完全没有记忆点。 好在谷歌听劝。 有眼尖的网友发现,谷歌已经悄悄把 AI Studio 里 Gemini 2.5 Flash Image 的名字换回了 Nano Banana。 甚至还有网友提议,以后所有 AI 模型都用水果和蔬菜来命名,这样更有趣,也比 那些 AI 公司一贯糟糕又拗口的命名方式要好得多。 言归正传。 前几天我们 盘点了 Nano Banana 的七种神仙玩法 ,其中呼声最高的就是生成 OOTD 这一趴。 左右滑动查看更多 所以,今天我们索性就来一期「砸」时尚博主饭碗的整活特辑。 生成明星 OOTD 「OOTD」 是 Outfit of the Day 英文缩写,意思是今日穿搭。 如果你经常混迹 ins、微博、小红书,就会发现明星们也很爱晒穿搭照片,倪妮、舒淇、高圆圆、钟楚曦都是出了名的私服大户。 左右滑动查看更多 很多时尚博主就专门收集她们的穿搭照,整理成一份份清单,方便时髦精们跟着明 ...
Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
机器之心· 2025-09-05 04:31
| 机器之心报道 | | --- | 机器之心编辑部 以前,每当上线一个新模型,大家总要绞尽脑汁想个响亮又不撞车的名字。 不得不说,有时候名字起得太出彩,甚至能把模型本身给卷下去。别人还没搞懂它能干嘛,名字已经在朋友圈刷屏了。 不过现在,大家的创意又放飞起来了,尤其是那些还没正式上线的神秘模型。不管是动物,还是水果都能被拿来命名。刮起这波命名潮流的,毫无疑问是 OpenAI 率先下场的草莓 Strawberry,当时 Sam Altman 一张草莓图就引发了广大网友热议: 在这之后,彷佛这种命名方式成为一种趋势,如 AI 初创公司 Recraft 神秘模型「red_panda」(小熊猫),再到最近的谷歌「Nano Banana」。 你别说,这些可可爱爱的名字真的把大模型带到一个新的高度。就拿火出圈的 Nano Banana 来说,公开后其实有正式的名字 Gemini 2.5 Flash,但大家更喜欢叫它 Nano Banana。 就在刚刚,我们又发现了一个新的神秘模型: Carrot(胡萝卜),代码能力超级强 。 看来大家的起名方向开始转向蔬菜了。你别说,名字起得随意,模型能力可一点不差。 这款神秘模型来自 ...
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
机器之心发布 为了破解这一痛点,华为近日发布了 专为昇腾端侧硬件打造的高性能语言模型 ——openPangu Embedded-1B 。该模型虽然只有 10 亿参数,却通过软硬件协同设 计显著降低推理延迟、提升资源利用率,并采用多阶段训练策略(包括从零预训练、课程学习式微调、离线 On-Policy 蒸馏、多源奖励强化学习)大幅增强各类任 务表现。 得益于多阶段训练与优化,openPangu Embedded-1B 在十亿参数的体量下实现了性能与效率的高度协同,成功将强大的大模型能力带到了端侧设备上,树立了「小 模型大能力」的新标杆。 评测成绩说明了一切,openPangu Embedded-1B 在多个权威基准上表现亮眼, 创下了 10 亿参数级别模型的全新 SOTA 纪录 。 模型的 整体平均分达到 63.90 ,不仅全面领先同类模型,甚至持平更大规模的 Qwen3-1.7B(63.69),充分体现了出色的参数效率。这表明,先进的训练与对齐方 法可以比单纯扩大模型规模更具成效。 机器之心编辑部 在端侧 AI 这个热门赛道,华为盘古大模型扔下了一颗 " 重磅炸弹" 。 如今,云端大模型已经能侃侃而谈、答疑解 ...
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
机器之心· 2025-09-05 04:31
论文链接:https://arxiv.org/pdf/2506.13045 项目主页:https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models 生成式 AI 的持续学习综述 论文:Continual Learning for Generative AI: From LLMs to MLLMs and Beyond 本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、 ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。 近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何 在此背景下实现持续学习成为了重要挑战。为了应对这一问题, 中国科学院自动化研究所联合中国科学院香港院 ...
刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
机器之心· 2025-09-04 09:33
| 机器之心报道 | 编辑:杜伟 | | --- | --- | | 就在刚刚,斯坦福大学经典 CV 课程 ——《CS231n:深度学习与计算机视觉》(2025 春季)正式上线了! | | 课程网站:https://cs231n.stanford.edu/ 该系列课程深入探讨了深度学习架构的细节,并重点关注围绕图像分类、定位和检测等视觉识别任务的端到端模型学习,尤其是图像分类领域。 在 为期 10 周 的学习中,学生将学习如何自己实现和训练神经网络,并深入理解计算机视觉领域的前沿研究。 课程结业时,学生还有机会在自己选择的真实世界视觉问题上训练并应用数百万参数的神经网络。 最终,通过多次实践作业和课程项目,学生将掌握搭建深度学习任务所需的工具集,以及在训练和微调深度神经网络过程中常用的工程技巧。 课程共有四位主讲人,分别如下: 李飞飞 :全球知名学者,斯坦福教授、World Labs CEO。她领导创建了 ImageNet 项目,这个前所未有的大规模视觉数据库直接催生了深度学习在计算机视觉领域 的革命性突破,被视为现代 AI 浪潮的关键引爆点。近期,她致力于空间智能与世界模型的研究。 Ehsan Adeli ...
PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
机器之心· 2025-09-04 09:33
许多研究者在参加学术会议前,常常会因为制作海报所耗费的大量时间和精力而感到困扰。一张精心设计 的海报是高效的学术交流媒介,但现有自动化方法普遍忽略了核心设计原则,导致生成的海报仍旧需要 大 量人工调整 。 为解决这一痛点,来自纽约州立大学石溪分校、纽约大学、不列颠哥伦比亚大学和浙江大学的联合团队推 出了 PosterGen ,一个能将论文 PDF 直接转化为设计精良、完全可编辑的 PPTX 格式学术海报的多智能体 框架。 PosterGen 的核心创新在于: 论文标题:PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs 论文地址: https://arxiv.org/abs/2508.17188 代码地址: https://github.com/Y-Research-SBU/PosterGen 项目主页: https://Y-Research-SBU.github.io/PosterGen case 1: case 2: 通过 模拟专业设计师工作流的多智能体协作架构 ,将复杂且依赖创意的设计任务进行了系统性的分 ...
又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
机器之心· 2025-09-04 09:33
机器之心报道 编辑:杨文 家长直呼太香了! 年轻父母又多了一个哄小孩法子。 前段时间,博主 Rory Flynn 在 X 上发了个帖子,说他妈妈发来一张 30 年前的涂鸦画,他反手就用 Midjourney 做成了「妈妈拿彩虹木勺大战巨龙」动画。 虽然有点粗糙,但整体效果还不错,完美还原了童年那种天马行空、乱七八糟的想象力。 We crash zoom into an immersive scene, where a mother holding a magical wooden spoon is fighting off a ferocious dragon with intense cinematic action.(我们快速推镜进入一个沉浸式场景,一位母亲手握魔法木勺,正与一 条凶猛的巨龙激烈战斗,充满强烈的电影感。) 并总结了提示词框架「we crash zoom into an immersive scene, [subject + action], intense cinematic action」,照 葫芦画瓢即可。 我们也试了下,上传一张网友小时候的墙上涂鸦照,输入提示词:we crash z ...
J.P. Morgan机器学习卓越中心高管亲述,华尔街AI实战心法
机器之心· 2025-09-04 07:04
近年来,人工智能和机器学习正逐渐成为金融行业的重要推动力。从量化交易到风险管理,AI 的应用场景不断扩展。但当算法模型从学术研究走向华尔街的 实际应用时,也暴露出一系列现实挑战。 许多讨论停留在理论层面,而在实践中,问题往往更为复杂。例如: 这些来自实践的经验和问题,往往缺乏系统性的公开讨论。为此,我们特别邀请到 J.P. Morgan 机器学习卓越中心(MLCOE)的王泽基 (Chak Wong) 教 授。他将结合团队在构建可复用 AI 组件库过程中的实践,分享对上述问题的第一手经验与思考。 本次讲座不仅是一次深度技术分享,同时也将作为 MLCOE 年度全球招聘宣讲会的内地站。我们诚邀对金融、AI、数据科学等领域感兴趣的同学和业界同 仁加入,与国际顶级团队面对面交流。 大多数模型在预测方面表现良好,但金融机构更关心的是支持「What-if」分析的决策工具。例如,如何通过模型回答「如果提高利率会怎样」这类 关键问题? 在金融中,相关性并不等于因果关系。历史数据中机票价格与销量的正相关,并不意味着简单的因果逻辑。如何避免如「对撞机问题」(collider problem)这类统计误区,是建模必须关注的关键点。 ...
刚刚,OpenAI发布白皮书:如何在AI时代保持领先
机器之心· 2025-09-04 07:04
机器之心报道 编辑:Panda、泽南 怎样用好生成式 AI?OpenAI 亲自教你。 AI 发展的速度已经超越了摩尔定律,更超越了大多数企业的适应能力。这不是遥远的未来预言,而是 2025 年的商业现实:早期采用 AI 的企业,其收入增 长速度已比同行快了 1.5 倍。 当许多公司还在为如何规划而头痛时,先行者们已经将优势转化为真金白银。为了帮助企业穿越这场技术变革,9 月 3 日,OpenAI 发布了一份关键的《在 AI 时代保持领先:领导力指南》。 该报告总结了该公司与一系列全球大型知名企业合作的经验,这些企业包括制药巨头 Moderna、化妆品巨头雅诗兰黛、Notion 以及跨国银行 / 金融服务 公司 BBVA,最终得到了从战略到治理的五大核心原则。 报告链接:https://cdn.openai.com/pdf/ae250928-4029-4f26-9e23-afac1fcee14c/staying-ahead-in-the-age-of-ai.pdf OpenAI 在报告中指出,人工智能的进步速度前所未有: 自 2022 年以来,前沿大规模 AI 模型的发布数量增加了 5.6 倍; 仅仅 18 个 ...