OpenBMB VoxCPM2:2B 参数开源 TTS,支持 30 种语言、声音设计和语音克隆
概览
OpenBMB(清华团队)开源的 VoxCPM2 是一个 Tokenizer-Free 端到端语音合成系统,采用扩散自回归架构,跳过离散 Token 化,直接在连续语音表示上生成声音。
基础数据:2B 参数,200 万+ 小时多语言训练数据,23,663 个 GitHub Star,Apache-2.0 开源可商用。
项目地址:https://github.com/OpenBMB/VoxCPM
为什么值得关注
传统的 TTS 系统大多分两步走:先把语音转成离散 Token,再用语言模型生成。VoxCPM 的差异在于完全跳过 Token 化这一步——直接生成连续的语音表示。这种做法有两个好处:
- 更自然的韵律——不被离散 Token 的量化误差限制,生成的声音更连贯
- 更丰富的表现力——能捕捉到用 Token 表示容易丢失的微细声音特征
VoxCPM2 是基于 MiniCPM-4 骨干网络的重大升级。
三大核心能力
1. 🎨 Voice Design(声音设计)
这是最让人眼前一亮的功能——仅凭自然语言描述就能创造全新的声音,完全不需要参考音频。
from voxcpm import VoxCPM
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
# 用文字描述创造新声音
wav = model.generate(
text="你好,欢迎收听今天的播客节目。",
voice_attr="A warm, deep middle-aged male voice, calm and authoritative.",
)
可控制的维度包括:性别、年龄、语调、情感、语速等。这意味着你可以”设计”一个理想的主播声音,而不需要找一个真人录音。
2. 🎛️ Controllable Cloning(可控克隆)
给一段短参考音频,克隆这个声音——并且可以额外控制情感和表现力方向。
# 克隆声音 + 风格指导
wav = model.generate(
text="这条新闻非常重要,请各位认真收听。",
reference_audio="ref_speaker.wav",
voice_attr="Serious and urgent news anchor style",
)
这是实际应用中最常用的场景——拿到一个参考发音人的声音,然后控制它用不同的情感和风格来表达。
3. 🎙️ Ultimate Cloning(终极克隆)
提供参考音频和对应的文本转录——模型无缝衔接参考音频继续合成,忠实保留每一个声音细节(音色、节奏、情感、风格)。这个能力继承自 VoxCPM1.5。
多语言支持
VoxCPM2 支持 30 种语言,包括:
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、
德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、
韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、
斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语
另外还支持 9 种中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。
输入文本时不需要指定语言标签——模型会自动识别并合成对应语言的语音。
技术亮点
Tokenizer-Free 架构
传统 TTS 流水线:语音 → Tokenizer → 离散 Token → LLM 生成 → Vocoder → 波形。每一步都有信息损失。
VoxCPM 的路径:文本 → 扩散自回归模型 → 连续语音表示 → AudioVAE 解码 → 48kHz 波形。少了 Token 量化步骤,信息保留更完整。
AudioVAE V2 非对称编码
编码端用 16kHz 输入(兼容常见录音设备),解码端直接输出 48kHz 工作室级音质。内置超分辨率能力,不需要外挂升频器。
实时推理性能
| 硬件 | 加速方案 | RTF(实时率) |
|---|---|---|
| NVIDIA RTX 4090 | 原生 | ~0.3 |
| NVIDIA RTX 4090 | Nano-vLLM / vLLM-Omni | ~0.13 |
RTF(Real-Time Factor)小于 1 意味着生成速度快于实时播放。~0.13 表示生成 1 秒音频只需要 0.13 秒。
vLLM-Omni 是官方支持的 omni-modal 推理引擎,提供 PagedAttention 加速和 OpenAI 兼容 API。
快速上手
安装极其简单——一行命令:
pip install voxcpm
基础用法:语音合成
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained(
"openbmb/VoxCPM2",
load_denoiser=False,
)
wav = model.generate(
text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
生产部署:vLLM-Omni 服务
# 安装 vLLM-Omni 并启动服务
pip install vllm-omni
vllm serve openbmb/VoxCPM2
# 通过 OpenAI 兼容 API 调用
curl http://localhost:8000/v1/audio/generations \
-H "Content-Type: application/json" \
-d '{
"model": "openbmb/VoxCPM2",
"input": "你好,欢迎使用 VoxCPM2",
"voice_attr": "A friendly female voice with a warm tone"
}'
模型版本对比
| 版本 | 参数 | 数据 | 语言 | 核心特性 |
|---|---|---|---|---|
| VoxCPM-0.5B | 0.5B | ~50k 小时 | 中英 | 2025.09 首发,#1 HuggingFace Trending |
| VoxCPM1.5 | 1.5B | ~50k 小时 | 中英 | SFT + LoRA 微调,#1 GitHub Trending |
| VoxCPM2 | 2B | 200万+ 小时 | 30 种 | Voice Design, Controllable Cloning, 48kHz |
从 VoxCPM1.5 到 VoxCPM2 的跃升是最显著的——语言从 2 种扩展到 30 种,数据量从 5 万小时跳到 200 万小时以上,音质从 16kHz 提升到 48kHz。
适用场景
- 内容创作:播客、有声书、视频配音——用 Voice Design 创造专属声音
- 多语言产品:30 种语言 + 9 种方言,一个模型覆盖全球主要市场
- 语音助手:实时 RTF ~0.13,满足对话级延迟要求
- 声音品牌:设计品牌专属声音,不需要请真人声优
- 辅助技术:为失去声音的人重建个性化语音(克隆场景)
生态与社区
- 文档:https://voxcpm.readthedocs.io/
- 在线 Playground:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
- 权重:https://huggingface.co/openbmb/VoxCPM2
- Demo 页面:https://openbmb.github.io/voxcpm2-demopage/
- 官网:https://voxcpm.com
总结
VoxCPM2 是目前开源的 TTS 系统中能力最全面的之一。2B 参数、30 种语言、Voice Design、48kHz 音质,加上 Apache-2.0 可商用——三个维度打下来基本没有短板。
如果说有什么遗憾,那就是推理对 GPU 有要求(推荐 RTX 4090),而且在 RTF ~0.3 下对于大规模部署来说硬件成本不低。但考虑到 vLLM-Omni 的加速方案已经把 RTF 压到 ~0.13,配合 OpenAI 兼容 API,做产品级接入是可行的。
对于内容创作者、多语言产品团队和语音交互开发者来说,这是目前开源领域最值得关注的一个 TTS 项目。
版权所有,本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处:https://www.wangjun.dev//2026/06/openbmb-voxcpm2-tts/