AI播客

Search documents
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 05:53
不想看内容,试试听推送吧!(该博客基于 MOSS-TTSD 合成) 播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。 当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水 平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。 现在,历史时刻来到!上海创智学院、复旦大学和模思智能的 OpenMOSS 团队携手推出了革命性成果 —— MOSS-TTSD !首次基于百万小时音频训练,成功破除 AI 播客的「恐怖谷」魔咒。 MOSS-TTSD-V0 全新释出,模型权重及推理代码全面开源,商业应用无障碍! 与传统 TTS 模型只能生成单句语音不同,MOSS-TTSD 能够根据完整的多人对话文本,直接生成高质量对话语音,并准确捕捉对话中的韵律变化和语调特性,实 现超高拟人度的逼真对话语音合成。 接下来听听实测效果,并比较一下与其他 TTS 模型的听感差异。 中文播客示例 团队以奇绩「前沿信号研究体系」的每日推文作为内容,对比了豆包(商业产品)的播客生成与 MOSS-TTSD 的开源 ...
离开百川去创业!8 个人用 2 个多月肝出一款热门 Agent 产品,创始人:Agent 技术有些玄学
AI前线· 2025-07-04 12:43
作者 | 褚杏娟 "在百川智能的那段时间,我和同事们始终处在一种很亢奋的状态。尽管我们常常工作到深夜,甚 至一两点钟才下班,但内心非常地充实和开心。"如今回忆起那段经历时,前百川工具链负责人徐 文健的眼中依然有光。 徐文健在百川最负盛名的时候加入,半年多后又选择离开,再次踏上了自己的创业之路。 94 年的徐文健现在身上依然保有"技术理想主义"的影子,人到中年依然可以说出:"创业是一项复 杂的工作,我们需要在不改变初心的前提下赚钱。" 从徐文健身上,我们可以看到"大模型六小虎"时代下那批怀揣理想的技术人,至今依然保持热 情。他们带着从"大模型六小虎"时代积累的成长经验,正在开启 Agent 时代新的创业故事。 成长,始于一次次"祛魅" 徐文健毕业于南京工程学院,刚进入大学时期的他性格内向,于是就刻意强迫自己在公开场合发 言,尽管当时会紧张的手指发抖。除此以外他还积极参与各种大学生创业的活动。"虽然学校并非 顶尖但创业氛围很浓,我很感谢这个过程中身边的老师同学给到我的帮助和启发,母校塑造了创 业者徐文健这个身份的雏形 。 " 像很多刚毕业的人一样,徐文健也想进大厂。在创业公司工作了段时间后,他如愿去了滴滴。当 时 ...
字节、讯飞、MiniMax,为什么都在上新“声音复刻”?
AI研究所· 2025-07-04 09:28
前不久,字节跳动旗下豆包 AI 播客功能全量上线的消息引发行业震动。 有用户上传 8 万字的英文 PDF 文档,系统能在数秒内生成男女对谈的播客节目,语气词、停顿节 奏与真人对话无异。 几乎同一时间, 早在 2 0 2 4 年 4 月 就推出声音复刻功能的 科大讯飞 ,则 宣布声音复刻技 术升 级,仅需不到 10 秒的音频素材,就能让《长安的荔枝》中"李善德"的声音复刻品在情绪表达上与 原角色难分伯仲。 而在稍早的 2024 年底, MiniMax 的海螺 AI 也 已凭借 30 秒语音素材克隆出唐国强、林黛玉 等 人物的声音,情感还原度让中文语音克隆实现从"能用"到"好用"的跨越。 这些技术突破背后,是科技巨头对音频内容赛道的战略押注。其核心逻辑在于:通过声音复刻、智能 生成等技术,重构音频内容的生产、分发与消费链条,试图在这片被称为"耳朵经济"的蓝海中开辟 新航道。 当 AI 不仅能复刻声音,更能模拟对话逻辑、生成结构化内容时,这场声音革命又将如何重塑内容产 业与商业版图? 01 声音复刻 +播客 的技术竞速 从豆包到讯飞,再到海螺 AI 这是一场从文档到对话的工业化生产转变。 图/豆包网页版"AI播客" ...
扣子空间上线极致拟人的AI播客,这次真是降维打击了。
数字生命卡兹克· 2025-05-27 17:24
一篇文章,一键转成几乎跟真人无异的十几分钟中文AI播客。 有打断、有语气、有停顿,就特么离谱。 这,就是我用我现在的这篇文章,生成的AI播客。 这个语气,这个聊天的感觉,我人麻了。 这个AI播客,来自于扣子空间。 昨天,很多人在群里说,扣子空间的AI播客更新了,变得超级拟人。 我就去直接试了一下。 当我实际听到扣子空间生成的AI播客音频的时候,我的第一反应是震撼,第二反应是恐惧,然后才是兴奋。 震撼,是因为它生成的声音之真实、之流畅,让我几乎怀疑自己的耳朵。 恐惧,是因为这种效果似乎已经越过了某个阈值,打破了人机声音之间那道隐形的次元壁,我真的无法想象,我在听的东西,是AI生成的聊天。 兴奋,是因为我知道,终于,这个世界上的无数内容创作者们,可以彻底摆脱过去声音内容生产的桎梏了,尽情享受一种前所未有的自由。 这个AI播客,打开扣子空间(就是扣子做的那个Agent平台)就能直接使用。 扣子空间网址在此:https://space.coze.cn/ 这里我插一句,扣子空间之前要邀请码,现在已经全量开放了,每个人都可以直接使用。 想要做一个类似的AI播客,非常简单。 你什么都不用管,把你想要转成播客的文件素材,上传 ...
火山引擎发布豆包·语音播客模型,秒级生成“真人对话”播客
Cai Fu Zai Xian· 2025-05-21 05:08
播客创作高效快捷:传统播客制作可能需要耗费大量的时间和精力,而豆包·语音播客模型构建了端到 端的便捷链路,一气呵成地完成整个创作过程; 时事热点跟随:在信息更新换代极快的当下,紧跟时事热点是播客保持吸引力的关键。豆包·语音播客 模型具备深度搜索功能,用户只需输入热点话题,5秒即可听到利用最新信息生成的播客音频。 此外,豆包·语音播客模型不仅支持用户灵感创作,用户输入一个主题,它就能将想法转化为深度播客 观点,为创作者提供丰富的思路和内容;模型还支持超长文本转播客,用户输入文档或 URL 网页地 址,就能轻松创作媲美真人的播客作品。 5月20日,火山引擎正式推出豆包·语音播客模型,作为豆包大模型语音语言技术的重大场景化升级成 果,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来"低成 本、高时效、强互动"的全新创作体验。无需复杂剪辑,热点内容就能瞬间转化为生动播客,让创意落 地快人一步! 仅输入一句"睡得少和睡得晚,哪一个危害更大?"秒级生成播客音频 在当今信息爆炸的时代,播客作为一种受欢迎的内容传播形式,正吸引越来越多的用户。然而,传统 AI 播客创作存在诸多痛点,如内容重复废话 ...