爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

震惊世界的3...

坦克队喜剧的...

孙越没想到，...

媒体：赖清德...

《我的山与海...

吉利银河V9...

特朗普威胁哥伦比亚总统：马杜罗之后就是你

多省份公布金融数据：居民储蓄高增，浙江人均存款超17万元

新增蓝牙数字钥匙迈腾3000万辆甄选款17.49万起

布兰特多特队友最佳阵：罗伊斯、哈兰德在列，贝林厄姆入选

亚洲颜值天花板，居然合体了

尼科尔：梅努在脚下有球时很出色，但当对手控球时他做得不够

新一轮价格战？本田：不到17万买冠道，蔚来：“购置税”全免！

男子同时筹备＂2场婚礼＂被抓正与＂未来岳父母＂谈婚房

上海老教授花600万借孙女名字买房结果要不回来了

3人因销售火麻种子被判缓刑申诉获再审法院维持原判

加盟米兰至今只替补出场1次，斯基拉：奥多古可能在冬窗离队

深度丨怡园酒业连涨9倍：杨陵江的F2B2C酒饮商业操作系统开启裂变

拉姆塞：我的合同被美洲狮终止了，这令我感到意外且失望

一句话，干掉586亿

媒体：泰军缴获柬军中国制造反坦克导弹有人阴阳怪气

2026支付宝集福最大亮点：新增“健康福”红包，由蚂蚁阿福发放

大师赛赵心童5-3领先赛点，决胜局选择逆转

AMD ROCm 软件堆栈更新至 7.0.2 版本，支持 Radeon RX 9060 显卡

汽车图谱⑳｜新能源车迎最强“金九” 新势力头部月销达4万量级

中国豪华车老大之争：奥迪凭啥干掉奔驰宝马？

聂卫平告别仪式在八宝山举行＂一生的对手＂冒雪来送别

摸吉祥物女演员胸部，前塞尔塔队长马略被判赔偿1000欧

伊姐十一热推：电影《江南：在爱开始的地方等你》；电视剧《围猎》......

国羽包揽韩国公开赛混双冠亚军