声纹克隆和语音合成。上传音频样本克隆声纹,用克隆声纹或预设声纹生成语音。支持多个后端:MiniMax、ElevenLabs、Fish Audio、Azure TTS、OpenAI TTS。支持情绪控制、语速调整、批量生成。触发词:语音合成、TTS、声纹克隆、voice clone、text to speech、配音、旁白。
| 场景 | 是否需要此 Skill |
|---|---|
| 数字人平台支持声纹克隆(可灵/即梦/HeyGen) | 不需要,直接在 digital-avatar 里处理 |
| 数字人平台不支持声纹克隆 | 需要,生成音频后上传 |
| 纯音频输出(播客/有声书) | 需要 |
| 需要更精细的语音控制 | 可选,MiniMax/ElevenLabs 控制更细 |
推荐:优先用数字人平台自带的声纹克隆,保持后端一致性。
| 后端 | 克隆 | 情绪 | 多语言 | 特点 |
|---|
| MiniMax | ✓ | ✓ | 中/英 | 国内快,中文好 |
| ElevenLabs | ✓ | ✓ | 30+ | 质量顶级 |
| Fish Audio | ✓ | - | 中/英/日 | 开源,便宜 |
| Azure TTS | - | ✓ | 100+ | 稳定,多语言 |
| OpenAI TTS | - | - | 多语言 | 简单快速 |
默认使用 MiniMax(如已配置)。
输入: 音频样本(10s-5min)
↓
上传到后端
↓
等待训练(即时-几分钟)
↓
输出: voice_id
输入: text + voice_id + 参数
↓
调用 TTS API
↓
输出: 音频文件
输入: scenes[] + voice_id
↓
逐条生成(或并行)
↓
输出: 音频文件列表
| 参数 | 必填 | 说明 |
|---|---|---|
| mode | ✓ | clone |
| backend | - | minimax / elevenlabs / fish |
| audio_sample | ✓ | 音频文件路径(10s-5min) |
| name | - | 声纹名称 |
| description | - | 声纹描述 |
| 参数 | 必填 | 说明 |
|---|---|---|
| mode | ✓ | synthesize |
| backend | - | 同上 + azure / openai |
| text | ✓ | 要合成的文本 |
| voice_id | ✓ | 声纹 ID 或预设名 |
| output | - | 输出路径 |
| speed | - | 语速 0.5-2.0(默认1.0) |
| emotion | - | 情绪(见下表) |
| pitch | - | 音调调整 |
| format | - | mp3 / wav / ogg |
| 参数 | 必填 | 说明 |
|---|---|---|
| mode | ✓ | batch |
| backend | - | 同上 |
| scenes | ✓ | 分镜列表(含台词) |
| voice_id | ✓ | 声纹 ID |
| output_dir | - | 输出目录 |
| 情绪 | 英文 | 适用场景 |
|---|---|---|
| neutral | neutral | 默认/旁白 |
| happy | happy | 轻松/种草 |
| sad | sad | 共情/痛点 |
| angry | angry | 吐槽/愤怒 |
| excited | excited | 惊喜/CTA |
| serious | serious | 专业/严肃 |
| whisper | whisper | 悄悄话/ASMR |