Workflow
ThinkSound
icon
Search documents
腾讯研究院AI速递 20250702
腾讯研究院· 2025-07-01 16:38
生成式AI 3. Meta计划未来几年投入数千亿美元用于AI基础设施、模型训练和人才储备,目标一年内推 出超越Llama系列的下一代领先模型。 一、 争夺3500亿!2025,中国芯片集体冲刺IPO , 排队 上 市 1. 国产芯片企业纷纷冲刺IPO,摩尔线程、沐曦等近10家"中国英伟达"已进入上市流程,呈 现营收增长但持续亏损状态; 2. 中国AI芯片市场规模可达3500亿人民币,理论上可容纳35家年营收100亿元的GPU企业, 但产能受限成为行业共同挑战; 3. 国产GPU面临代工产能受限、生态构建不足等困境,需在B端AI应用或C端图形领域寻求差 异化竞争机会。 https://mp.weixin.qq.com/s/MPmn7Eh0qVEIEkgOz8ebww 二、 Meta 成立「超级智能实验室」,11人豪华团队中华人占大半 1. Meta正式成立"超级智能实验室"(MSL),将整合基础AI研究、大语言模型开发和AI产品团 队,由新任首席AI官Alexandr Wang领导; 2. 该实验室成功从OpenAI、Anthropic、Google挖来11位顶尖AI人才,华人占比超半数,包 括GPT-4o和G ...
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 03:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 没错,这就是阿里通义语音团队最新开源的 泛音频生成模型ThinkSound ,主要用于视频配音,主打 让每一帧画面都有专属匹配音效 。 据介绍,它首次将今年大热的 CoT思维链推理 引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的 动态细节和空间关系的难题。 AI音效已经进化成这样了吗?? 打开声音 ,来快速感受一下最新feel: 模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。 一辆火车由远及近驶来,整个背景音也颇具空间层次感,毫不违和。 甚至连小号这种乐器演奏,声音也能和演奏者的动作一一对上。 就是说,AI现在也能像专业音效师一样逐步思考,通过捕捉视觉细节来生成音画同步的高保真音频。 官方测评显示,ThinkSound在业界知名的音视频数据集VGGSound上,对比6种主流方法 (Seeing&Hearing、V-AURA、FoleyCrafter、 Frieren、V2A-Mapper和MMAudio) ,在核心指标上均实现了显著提升。 | Method | | | | Objective ...