登录 / 注册

2026-05-25

Matrix TTS 上手：零样本声音克隆 + 多语种合成实测

matrix-tts-v1 是什么

零样本：你提供 3–10 秒参考音频，模型直接克隆音色（不需要训练）
多语种：中 / 英 / 日 / 西 / 法 / 阿等 600+ 语种
音色精细控制：speed、emotion、pause 可调
OpenAI 兼容：用 /v1/audio/speech 接口直接调

5 行代码生成

from openai import OpenAI

client = OpenAI(base_url="<Matrix 网关>/v1", api_key="<你的 Key>")
speech = client.audio.speech.create(
    model="matrix-tts-v1",
    voice="default",
    input="你好世界，这是 Matrix TTS 生成的语音。",
)
speech.stream_to_file("hello.mp3")

用自己的声音克隆

参考音频上传 + 提示词控制：

curl <Matrix 网关>/v1/audio/speech \
  -H "Authorization: Bearer <你的 Key>" \
  -F "model=matrix-tts-v1" \
  -F "voice=cloned" \
  -F "reference=@my-voice-sample.wav" \
  -F "input=用我的声音念这句话" \
  --output cloned.mp3

常见用法

播客 / 短视频配音：批量替代真人录音
多语种本地化：一次输入一种文案，输出多语言版本
角色扮演 / 游戏 NPC：每个角色对应一段参考音频，自动产出对话语音
辅助阅读：把文章丢进去自动生成音频版

计费

按合成的音频时长计费，定价见模型目录与定价；登录后实时可查。

Matrix 一站式 AI 平台

现在就开始你的第一次体验

浏览精选开源 AI 应用、一键启动专属容器；或在控制台签发 Matrix API Key，在 Cursor、Cherry Studio、自有应用里统一接入多家模型。

免费体验开源应用查看模型列表

继续阅读