当前位置：首页 > news >正文

ThinkSound：阿里开源首个“会思考”的音频生成模型——从“看图配音”到“听懂画面”的技术跃迁

news 2025/11/9 5:34:00

1. 为什么「看懂」还不够，AI 必须「听懂」画面？

过去两年，视频生成模型把画面做到了 4K 60 fps，音频却仍是“罐头音效”：
狗叫永远是同一段 WAV，飞机轰鸣与镜头距离无关，雨点落在铁皮和草地声音毫无区别。
根本原因在于——模型并不理解“为什么这个物体在这个场景会发出这样的声音”，只能做粗糙的“像素→波形”映射。

阿里巴巴通义实验室在 2025-07-20 开源的 ThinkSound，第一次把 CoT（Chain-of-Thought） 引入了音频生成：
让大模型像导演一样，先想清楚画面里发生了什么，再去合成声音，从而实现了：

高保真：48 kHz 立体声，频谱细节逼近录制级；
强同步：物体移动、镜头切换、声像定位误差 < 20 ms；
可编辑：一句话或鼠标一圈，即可实时重混音。

2. 技术架构：双大脑 + 三阶段链式推理

模块	职责	关键技术
MLLM（多模态大语言模型）	思考	基于 CoT 的链式推理，把画面拆成「事件-物体-环境」三元组
统一音频生成模型	输出	流匹配（Flow-Matching）扩散模型，端到端 48 kHz

三阶段流水线

全局场景理解
识别整体语境（室内/室外、白天/夜晚、远景/特写）。
物体级聚焦
定位发声体 → 估计方位角、距离、运动轨迹 → 计算直达声/反射声比例。
指令级响应
支持文本或交互式 prompt：

“让摩托经过时排气管喷火，声音带一点回火放炮”
模型在 1.8 s 内完成局部重生成。

3. 数据基石：AudioCoT——首个支持链式推理的多模态音频数据集

体量：2531.8 小时，来自 VGGSound、AudioSet、AudioCaps、Freesound 等 400+ 细分类别。
质量：五层自动化过滤 + ≥5% 人工校验，确保每一条样本都有可解释的“事件-声音”因果链。
交互标签：120 万段对象级（“汽车-发动机-转速 3000 rpm”）、指令级（“把引擎声加重，远处加警笛”）标注，可直接用于微调 LoRA。

4. Benchmark：全面领先 15%+

测试集	指标	ThinkSound	MMAudio	相对提升
VGGSound	FD↓	34.56	43.26	+20% 相似度
VGGSound	KLPaSST↑	1.52	1.31	+16%
MovieGen Audio Bench	CLAP↑	0.74	0.61	+21%

FD（Fréchet Distance）越低越好；KLPaSST、CLAP 越高越好。

5. 5 分钟上手：本地推理 + 在线编辑

# 1. 克隆 & 安装
git clone https://github.com/Alibaba/ThinkSound
cd ThinkSound && pip install -e .# 2. 一键推理（视频+自然语言指令）
python demo.py \--video examples/rainy_street.mp4 \--prompt "雨滴落在铁皮屋檐，远处有雷声滚过" \--output rainy_stereo.wav# 3. 本地 Gradio 编辑器（可选）
python web_demo.py --share

显存占用：FP16 推理 14 GB；官方提供 8-bit 量化，单张 3090 即可跑。
实时编辑：WebUI 中鼠标拖拽声像、滑条调节混响，延迟 < 200 ms。

6. 路线图：从工具到生态

时间	里程碑
2025 Q3	开源 7B MLLM 权重，支持中文 CoT prompt；发布 Blender/UE5 插件 Spatial-Mix。
2025 Q4	引入触觉+光场模态，推出全模态沉浸式渲染 SDK。
2026	与淘宝、高德共建「AI 声景商店」，创作者可出售自训练 LoRA 音效包。