Matrix TTS 上手:零样本声音克隆 + 多语种合成实测
matrix-tts-v1 是什么
- 零样本:你提供 3–10 秒参考音频,模型直接克隆音色(不需要训练)
- 多语种:中 / 英 / 日 / 西 / 法 / 阿 等 600+ 语种
- 音色精细控制:speed、emotion、pause 可调
- OpenAI 兼容:用
/v1/audio/speech接口直接调
5 行代码生成
from openai import OpenAI
client = OpenAI(base_url="<Matrix 网关>/v1", api_key="<你的 Key>")
speech = client.audio.speech.create(
model="matrix-tts-v1",
voice="default",
input="你好世界,这是 Matrix TTS 生成的语音。",
)
speech.stream_to_file("hello.mp3")
用自己的声音克隆
参考音频上传 + 提示词控制:
curl <Matrix 网关>/v1/audio/speech \
-H "Authorization: Bearer <你的 Key>" \
-F "model=matrix-tts-v1" \
-F "voice=cloned" \
-F "reference=@my-voice-sample.wav" \
-F "input=用我的声音念这句话" \
--output cloned.mp3
常见用法
- 播客 / 短视频配音:批量替代真人录音
- 多语种本地化:一次输入一种文案,输出多语言版本
- 角色扮演 / 游戏 NPC:每个角色对应一段参考音频,自动产出对话语音
- 辅助阅读:把文章丢进去自动生成音频版
计费
按合成的音频时长计费,定价见 模型目录与定价;登录后实时可查。