Convert text to synthesized speech using TTS (Text-to-Speech) providers like ElevenLabs, OpenAI TTS, or Gemini TTS
Esta skill se activa cuando el usuario necesita convertir texto a voz: leer respuestas, generar audio, síntesis de voz.
| Tool | Qué hace | Cuándo usarla |
|---|---|---|
voice_speak | Convierte texto → audio | Síntesis de voz |
// 1. Recibir texto
const text = "Hola, ¿cómo estás?"
// 2. Preprocesar
// - Expandir números: "5" → "cinco"
// - Expandir fechas: "01/01" → "primero de enero"
// - Expandir abbreviaturas: "Dr." → "Doctor"
// 3. Sintetizar
const audio = voice_speak({
text: optimizedText,
voice_id: "eleven_flash_v2_5", // o configured voice
language: "es"
})
// 4. Entregar audio
// - Enviar como archivo
// - Streaming si el canal lo soporta
| Provider | Modelos | Voces |
|---|---|---|
| ElevenLabs | Flash V2.5, Turbo V2.5, Multilingual V2, V3 | 1000+ |
| OpenAI | tts-1, tts-1-hd, gpt-4o-mini-tts | 6+ |
| Gemini | 2.5 Flash TTS, 2.5 Pro TTS | Multi |
| Qwen | Qwen TTS Flash, Instruct | Multi |
Cada canal configura su proveedor TTS:
tts_provider: "elevenlabs" | "openai-tts" | "gemini-tts"tts_voice_id: ID específico de voz (ej. ElevenLabs voice ID)