Workflow
文本到音频生成
icon
Search documents
AI音效90秒长时可控生成!“狼嚎2秒,蟋蟀鸣8秒”精准搞定!清华&生数科技新研究入选ACM MM 2025
量子位· 2025-07-23 04:10
FreeAudio团队 投稿 量子位 | 公众号 QbitAI 文生音频系统最新突破,实现 精确时间控制 与 90秒长时音频生成 ! 想象一下,给AI发一段复杂指令生成音频: 0-10秒要有森林风吹声;0-4秒,鸟儿鸣叫;4-6秒,木头燃烧;6-16秒,动物踩在干树叶上的脚步声;10-16秒,蟋蟀鸣叫;16-19 秒,猫头鹰鸣叫;17-26秒,溪水流淌。 现在它真能做到每个声音都卡准时间点,请听: 不论是长时间生成还是短时间都轻松拿捏: 1-3秒,狼嚎声;0-8秒,蟋蟀鸣叫声。 各种器物以及人的声响也都能复刻: 0-8秒,柔和的原声吉他拨弦奠定了节奏;8-16秒,男声加入,伴随着吉他的音乐唱歌;16-22秒,人声情绪高涨,而吉他声则保持稳定 的背景;22-26秒,歌曲略微柔和,轻柔的吉他声持续演奏。 以前要实现这种效果非常难,要么时间控不准,要么时长撑不过10秒。 但现在, 来自清华大学、生数科技的新成果FreeAudio 直接把这变 成了现实。 更猛的是,它不用额外训练,靠一套 " 免 训练"方法 就突破了行业瓶颈,可基于自然语言文本与时间提示实现精确的时间控制与长时音频生 成。 实验中,在10秒时间控制的 ...