Workflow
腾讯研究院AI速递 20250522
腾讯研究院·2025-05-21 15:01

生成式AI 一、 真碾压Sora!谷歌Veo 3直接「开口说话」 物理 遵循 性 更 好 1. Veo 3实现音画同步生成功能,能根据提示词同时生成视频画面、对白、唇动和音效,实 现完整的视听体验; 2. 基于V2A(Video-to-Audio)技术,模型能将视频像素转化为语义信号,配合文本提示生 成匹配音频; 3. 模型支持长提示词理解和多步骤事件流生成,但目前仅限8秒视频,面向美国Ultra订阅用 户开放,定价249.99美元/月。 https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA 二、 12秒1万token!谷歌文本「扩散模型」Gemini Diffusion 1. Gemini Diffusion采用扩散技术生成文本,速度达2000token/秒,12秒可生成1万 tokens; 2. 区别于传统自回归模型从左到右生成,通过逐步优化噪声学习生成输出,可快速迭代和错 误纠正; 3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美,支持非因果推理,能一次生成整个标 记块。 https://mp.weixin.qq.com/s/paes ...