爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

掌舵第二年扭...

金九银十冲刺...

曼联6500...

伊朗针对以色...

出道十年，宋...

美国市场电动...

9.79万起 2026款比亚迪海狮05压迫感有多强?

综合补贴8.78万元起星光730尊享型正式上市

塞内加尔世界杯大名单：马内领衔，雅克松、恩迪亚耶、库利巴利在列

中国汽车发动机新格局丨大众、丰田不再主流，谁主沉浮？

王力宏伴舞机器人高难度后空翻后稳稳落地，马斯克点赞！

吴建豪妈妈晒与言承旭周渝民阿信合照

《水龙吟》《天地剑心》一弃一追

她们的人生牛仔裤，链接都在这了

65岁林俊贤广东景区打工，年过6旬老成“龙王”，努力赚钱不丢人

美乌总统再度激烈争吵特朗普爆粗口还把地图给扔了

她穿一身大红参加葬礼，浪漫又感人？真是活久见哪

泽连斯基称乌美代表团将于本周晚些时候举行会谈

贵州茅台打假“飞天开放企业直供通道”等信息：有诈骗风险！

美股多板块盘中集体重挫，一份假想AI报告引发的抛售潮

何超莲晒全家福，三太瘦了很多，窦骁仍缺席

梅州1-4云南，佩德罗-恩里克双响，迪力穆拉提任意球建功

特朗普称美将管理委直至安全过渡

拉波尔塔：如无意外月底回归诺坎普；弗里克在巴萨很开心

春节档全盘点、春晚、中戏反腐、冬奥会等

驱动绿色智算筑牢AIDC基石：华为携液冷热管理控制器TMU亮相2025CDCC大会

35岁男子自称婚内出轨女大学生妻子还有40多天生产

电动Jeep曝新国产计划：或使用猛士技术，首车在2027年上市

特朗普：对委军事行动使用了空中、陆地和海上力量

郑丽文就职演说让马英九流泪台媒：他看见蓝营的希望