Voice Clone Tts | Skills Pool

Contenido de la habilidad

声纹克隆 & 语音合成

何时使用此 Skill

场景	是否需要此 Skill
数字人平台支持声纹克隆（可灵/即梦/HeyGen）	不需要，直接在 digital-avatar 里处理
数字人平台不支持声纹克隆	需要，生成音频后上传
纯音频输出（播客/有声书）	需要
需要更精细的语音控制	可选，MiniMax/ElevenLabs 控制更细

推荐：优先用数字人平台自带的声纹克隆，保持后端一致性。

功能

声纹克隆：上传音频样本 → 生成声纹 ID
语音合成：文本 + 声纹 → 音频文件
批量生成：分镜列表 → 多个音频文件

支持的后端

后端	克隆	情绪	多语言	特点

输入: 音频样本（10s-5min）
  ↓
上传到后端
  ↓
等待训练（即时-几分钟）
  ↓
输出: voice_id

输入: text + voice_id + 参数
  ↓
调用 TTS API
  ↓
输出: 音频文件

输入: scenes[] + voice_id
  ↓
逐条生成（或并行）
  ↓
输出: 音频文件列表

参数	必填	说明
mode	✓	synthesize
backend	-	同上 + azure / openai
text	✓	要合成的文本
voice_id	✓	声纹 ID 或预设名
output	-	输出路径
speed	-	语速 0.5-2.0（默认1.0）
emotion	-	情绪（见下表）
pitch	-	音调调整
format	-	mp3 / wav / ogg

Voice Clone Tts | Skills Pool