博客/Matrix TTS 上手:零样本声音克隆 + 多语种合成实测

Matrix TTS 上手:零样本声音克隆 + 多语种合成实测

2026-05-25

matrix-tts-v1 是什么

  • 零样本:你提供 3–10 秒参考音频,模型直接克隆音色(不需要训练)
  • 多语种:中 / 英 / 日 / 西 / 法 / 阿 等 600+ 语种
  • 音色精细控制:speed、emotion、pause 可调
  • OpenAI 兼容:用 /v1/audio/speech 接口直接调

5 行代码生成

from openai import OpenAI

client = OpenAI(base_url="<Matrix 网关>/v1", api_key="<你的 Key>")
speech = client.audio.speech.create(
    model="matrix-tts-v1",
    voice="default",
    input="你好世界,这是 Matrix TTS 生成的语音。",
)
speech.stream_to_file("hello.mp3")

用自己的声音克隆

参考音频上传 + 提示词控制:

curl <Matrix 网关>/v1/audio/speech \
  -H "Authorization: Bearer <你的 Key>" \
  -F "model=matrix-tts-v1" \
  -F "voice=cloned" \
  -F "reference=@my-voice-sample.wav" \
  -F "input=用我的声音念这句话" \
  --output cloned.mp3

常见用法

  • 播客 / 短视频配音:批量替代真人录音
  • 多语种本地化:一次输入一种文案,输出多语言版本
  • 角色扮演 / 游戏 NPC:每个角色对应一段参考音频,自动产出对话语音
  • 辅助阅读:把文章丢进去自动生成音频版

计费

按合成的音频时长计费,定价见 模型目录与定价;登录后实时可查。

Matrix 一站式 AI 平台

现在就开始你的第一次体验

浏览精选开源 AI 应用、一键启动专属容器;或在控制台签发 Matrix API Key,在 Cursor、Cherry Studio、自有应用里统一接入多家模型。

继续阅读