OpenBMB VoxCPM2：2B 参数开源 TTS，支持 30 种语言、声音设计和语音克隆

2026-06-01

概览
为什么值得关注
三大核心能力
多语言支持
技术亮点
快速上手
- 基础用法：语音合成
- 生产部署：vLLM-Omni 服务
模型版本对比
适用场景
生态与社区
总结

概览

OpenBMB（清华团队）开源的 VoxCPM2 是一个 Tokenizer-Free 端到端语音合成系统，采用扩散自回归架构，跳过离散 Token 化，直接在连续语音表示上生成声音。

基础数据：2B 参数，200 万+ 小时多语言训练数据，23,663 个 GitHub Star，Apache-2.0 开源可商用。

项目地址：https://github.com/OpenBMB/VoxCPM

为什么值得关注

传统的 TTS 系统大多分两步走：先把语音转成离散 Token，再用语言模型生成。VoxCPM 的差异在于完全跳过 Token 化这一步——直接生成连续的语音表示。这种做法有两个好处：

更自然的韵律——不被离散 Token 的量化误差限制，生成的声音更连贯
更丰富的表现力——能捕捉到用 Token 表示容易丢失的微细声音特征

VoxCPM2 是基于 MiniCPM-4 骨干网络的重大升级。

三大核心能力

1. 🎨 Voice Design（声音设计）

这是最让人眼前一亮的功能——仅凭自然语言描述就能创造全新的声音，完全不需要参考音频。

from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")

# 用文字描述创造新声音
wav = model.generate(
    text="你好，欢迎收听今天的播客节目。",
    voice_attr="A warm, deep middle-aged male voice, calm and authoritative.",
)

可控制的维度包括：性别、年龄、语调、情感、语速等。这意味着你可以”设计”一个理想的主播声音，而不需要找一个真人录音。

2. 🎛️ Controllable Cloning（可控克隆）

给一段短参考音频，克隆这个声音——并且可以额外控制情感和表现力方向。

# 克隆声音 + 风格指导
wav = model.generate(
    text="这条新闻非常重要，请各位认真收听。",
    reference_audio="ref_speaker.wav",
    voice_attr="Serious and urgent news anchor style",
)

这是实际应用中最常用的场景——拿到一个参考发音人的声音，然后控制它用不同的情感和风格来表达。

3. 🎙️ Ultimate Cloning（终极克隆）

提供参考音频和对应的文本转录——模型无缝衔接参考音频继续合成，忠实保留每一个声音细节（音色、节奏、情感、风格）。这个能力继承自 VoxCPM1.5。

多语言支持

VoxCPM2 支持 30 种语言，包括：

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、
德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、
韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、
斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语

另外还支持 9 种中文方言：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。

输入文本时不需要指定语言标签——模型会自动识别并合成对应语言的语音。

技术亮点

Tokenizer-Free 架构

传统 TTS 流水线：语音 → Tokenizer → 离散 Token → LLM 生成 → Vocoder → 波形。每一步都有信息损失。

VoxCPM 的路径：文本 → 扩散自回归模型 → 连续语音表示 → AudioVAE 解码 → 48kHz 波形。少了 Token 量化步骤，信息保留更完整。

AudioVAE V2 非对称编码

编码端用 16kHz 输入（兼容常见录音设备），解码端直接输出 48kHz 工作室级音质。内置超分辨率能力，不需要外挂升频器。

实时推理性能

硬件	加速方案	RTF（实时率）
NVIDIA RTX 4090	原生	~0.3
NVIDIA RTX 4090	Nano-vLLM / vLLM-Omni	~0.13

RTF（Real-Time Factor）小于 1 意味着生成速度快于实时播放。~0.13 表示生成 1 秒音频只需要 0.13 秒。

vLLM-Omni 是官方支持的 omni-modal 推理引擎，提供 PagedAttention 加速和 OpenAI 兼容 API。

快速上手

安装极其简单——一行命令：

pip install voxcpm

基础用法：语音合成

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

生产部署：vLLM-Omni 服务

# 安装 vLLM-Omni 并启动服务
pip install vllm-omni
vllm serve openbmb/VoxCPM2

# 通过 OpenAI 兼容 API 调用
curl http://localhost:8000/v1/audio/generations \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/VoxCPM2",
    "input": "你好，欢迎使用 VoxCPM2",
    "voice_attr": "A friendly female voice with a warm tone"
  }'

模型版本对比

版本	参数	数据	语言	核心特性
VoxCPM-0.5B	0.5B	~50k 小时	中英	2025.09 首发，#1 HuggingFace Trending
VoxCPM1.5	1.5B	~50k 小时	中英	SFT + LoRA 微调，#1 GitHub Trending
VoxCPM2	2B	200万+ 小时	30 种	Voice Design, Controllable Cloning, 48kHz

从 VoxCPM1.5 到 VoxCPM2 的跃升是最显著的——语言从 2 种扩展到 30 种，数据量从 5 万小时跳到 200 万小时以上，音质从 16kHz 提升到 48kHz。

适用场景

内容创作：播客、有声书、视频配音——用 Voice Design 创造专属声音
多语言产品：30 种语言 + 9 种方言，一个模型覆盖全球主要市场
语音助手：实时 RTF ~0.13，满足对话级延迟要求
声音品牌：设计品牌专属声音，不需要请真人声优
辅助技术：为失去声音的人重建个性化语音（克隆场景）

生态与社区

文档：https://voxcpm.readthedocs.io/
在线 Playground：https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
权重：https://huggingface.co/openbmb/VoxCPM2
Demo 页面：https://openbmb.github.io/voxcpm2-demopage/
官网：https://voxcpm.com

总结

VoxCPM2 是目前开源的 TTS 系统中能力最全面的之一。2B 参数、30 种语言、Voice Design、48kHz 音质，加上 Apache-2.0 可商用——三个维度打下来基本没有短板。

如果说有什么遗憾，那就是推理对 GPU 有要求（推荐 RTX 4090），而且在 RTF ~0.3 下对于大规模部署来说硬件成本不低。但考虑到 vLLM-Omni 的加速方案已经把 RTF 压到 ~0.13，配合 OpenAI 兼容 API，做产品级接入是可行的。

对于内容创作者、多语言产品团队和语音交互开发者来说，这是目前开源领域最值得关注的一个 TTS 项目。

版权所有，本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处：https://www.wangjun.dev//2026/06/openbmb-voxcpm2-tts/