Workflow
可灵数字人
icon
Search documents
腾讯研究院AI速递 20250916
腾讯研究院· 2025-09-15 16:01
生成式AI 一、 Google Gemini 凭Nano Banana登顶 App Store 免费榜 1. Google Gemini通过爆火的Nano Banana图像编辑功能一举超越ChatGPT登顶App Store免费榜; 2. Gemini成为完整AI工具集,包含画布、Veo3视频生成、Storybook故事板及Deep Research等多功能; 3. Google AI全家桶还包括NotebookLM知识库(最多可上传300个文件)、Flow视频生成(支持1080p高清)、AI Mode搜索和Gemini CLI本地助手。 https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A 二、 马斯克的最快AI模型,75 token/秒,比标准版快10倍! 1. xAI发布Grok 4 Fast模型,生成速度高达每秒75个token,比标准版快10倍,具有明显的实时交互优势; 2. 网友测试显示,新模型在编程题、初中数学题等任务上准确且速度惊人,能在不到2秒内解决LeetCode题目; 3. 尽管速度领先,Grok 4 Fast仍有准确性妥协,适合简单查询或工 ...
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
机器之心· 2025-09-15 12:19
机器之心编辑部 让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的,是当明快的旋律响起,它会自然扬起嘴角,眼神含笑;当进入说唱段落,它会随着鼓点起 伏,肩膀与手臂有节奏地带动气氛。观众看到的不再只是嘴在动,而是整个人在表演。这种表现不仅限于几个片段,而是能够稳定地延续到分钟级长视频中,在 整段时间里保持动作自然、镜头流畅。 近日,快手可灵团队把这一构想带到了现实。全新数字人功能已在可灵平台 开启公测 , 目前逐步放量中。 技术报告 Kling-Avatar 与项目主页也已同步发布。报告 系统解析了可灵数字人背后的技术路径, 阐明如何让一个只能跟着声音对口型 的模型, 进化为能够按照用户意图进行生动表达的解决方案 。 机器之心发布 可灵数字 人产品界面。网址: https://ap p.klingai.com/cn/ai-human/image/new 论文地址:https://arxiv.org/abs/2509.09595 项目主页:https://klingavatar.github.io/ 首先看一些效果: 实现这些惊艳效果的背后,是快手可灵团队精心设计的一套多模态大语言模型赋能的两阶段生成框架 ...