Workflow
Context Scaling
icon
Search documents
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 05:53
不想看内容,试试听推送吧!(该博客基于 MOSS-TTSD 合成) 播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。 当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水 平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。 现在,历史时刻来到!上海创智学院、复旦大学和模思智能的 OpenMOSS 团队携手推出了革命性成果 —— MOSS-TTSD !首次基于百万小时音频训练,成功破除 AI 播客的「恐怖谷」魔咒。 MOSS-TTSD-V0 全新释出,模型权重及推理代码全面开源,商业应用无障碍! 与传统 TTS 模型只能生成单句语音不同,MOSS-TTSD 能够根据完整的多人对话文本,直接生成高质量对话语音,并准确捕捉对话中的韵律变化和语调特性,实 现超高拟人度的逼真对话语音合成。 接下来听听实测效果,并比较一下与其他 TTS 模型的听感差异。 中文播客示例 团队以奇绩「前沿信号研究体系」的每日推文作为内容,对比了豆包(商业产品)的播客生成与 MOSS-TTSD 的开源 ...
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
机器之心· 2025-06-15 04:40
真正的智能在于理解任务的模糊与复杂,Context Scaling 是通向 AGI 的关键一步。 2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。 新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩, DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play + LLM 让 AI 在游戏和代码 生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路 都在探寻可能的下一个跃迁。 在这场技术探讨中,复旦大学 / 上海创智学院的邱锡鹏教授提出了一个耐人寻味的新路径 ——Context Scaling。与参数规模、数据量、推理计算等扩展路径不同,Context Scaling 的核心,不在于更大,而在于更 「深」:如何让 AI 真正理解并适应复杂、多变、模糊的情境(Context)。 在与机器之心的最新一次对谈中,邱锡鹏教授系统阐述了他对 AI 发展的洞察: ...