爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

最高法明确：...

初秋穿什么才...

电影《寻秦记...

销量口碑双丰...

今年秋冬最流...

理想汽车线上...

鲁尼：恩里克是顶级教头，5-2领先还在大举压上争取更多进球

王大陆逃兵役案新后续，贾静雯老公受牵连

记者：津门虎0-5埃尔切，下半场替补战对方几乎全主力连失5球

途经俄罗斯航班坠机38人身亡机身或被弹片击中

长安汽车10月销量27.8万辆同比增长11%

戴向宇曾单方面通知家人要和陈紫函离婚

老己，买点什么犒劳辛苦了一年的你？

没入选巴西国家队，恩德里克在国际比赛日期间前往摩洛哥度假

许绍雄离世，她说，老豆我很想你！但我不会再哭

“这个颜色”今天春天又火了！这样穿好看又减龄

技术+临床双向赋能成都脑机接口产业迎来新机遇

鹿晗的“体面”，终于被关晓彤撑起来了

OpenMind 开源全球首个“AI 原生”机器人系统 OM1 Beta

50岁阿姨也能穿得亮眼高级，这些搭配的技巧请收好，特别实用

微软豪掷79亿美元投资阿联酋AI企业G42，加速中东AI设施建设

卡塞米罗：我离开皇马时安帅哭了；吉马良斯是巴西下一代领袖

药品存在被污染可能，印度最大药企一仿制药被暂停进口，用于治疗阿尔茨海默

什么信号？利好，又要来了？！

两位省委常委跨省履新其中一人曾长期在中纪委工作

天籁出新款，鸿蒙座舱+燃油车，合资新出路来了？

直播间买货更放心了！两大新规封堵虚假宣传、仅退款乱象

亚马逊CEO安迪·贾西：AWS到2027年底将实现电力容量翻倍

伊姐周日热推：电视剧《重影》；电视剧《山河枕》......

一个入局晚了的数据标注创业者，3个月亏了20万