文本到音频生成 - filings, earnings calls, financial reports, news - Reportify

文本到音频生成

Search documents

AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

量子位· 2025-07-23 04:10

FreeAudio团队投稿量子位 | 公众号 QbitAI 文生音频系统最新突破，实现精确时间控制与 90秒长时音频生成！想象一下，给AI发一段复杂指令生成音频： 0-10秒要有森林风吹声；0-4秒，鸟儿鸣叫；4-6秒，木头燃烧；6-16秒，动物踩在干树叶上的脚步声；10-16秒，蟋蟀鸣叫；16-19 秒，猫头鹰鸣叫；17-26秒，溪水流淌。现在它真能做到每个声音都卡准时间点，请听：不论是长时间生成还是短时间都轻松拿捏： 1-3秒，狼嚎声；0-8秒，蟋蟀鸣叫声。各种器物以及人的声响也都能复刻： 0-8秒，柔和的原声吉他拨弦奠定了节奏；8-16秒，男声加入，伴随着吉他的音乐唱歌；16-22秒，人声情绪高涨，而吉他声则保持稳定的背景；22-26秒，歌曲略微柔和，轻柔的吉他声持续演奏。以前要实现这种效果非常难，要么时间控不准，要么时长撑不过10秒。但现在，来自清华大学、生数科技的新成果FreeAudio 直接把这变成了现实。更猛的是，它不用额外训练，靠一套 " 免训练"方法就突破了行业瓶颈，可基于自然语言文本与时间提示实现精确的时间控制与长时音频生成。实验中，在10秒时间控制的 ...

文本到音频生成

时间可控音频生成

FreeAudio系统

文本到音频生成

时间可控音频生成

FreeAudio系统