Транскрибировать видео или аудио файлы в текст. Используй этот навык когда пользователь просит расшифровать видео, получить транскрипцию, создать субтитры (.srt), сделать отчёт по содержанию видео, или когда упоминается транскрипция, расшифровка, субтитры.
Следуй шагам последовательно. Шаги 1–2 — вызов инструментов через ShellTool. Шаги 3–5 — твоя работа своим интеллектом.
python tools/extract_audio.py "{путь_к_файлу}"
Флаги при необходимости:
--normalize — тихий звук--denoise — шумное видео--job-id my_id — задать конкретный IDОжидаемый вывод (stdout):
{
"job_id": "a1b2c3d4",
"audio_path": "output/a1b2c3d4/audio.wav",
"duration_seconds": 3610.5,
"duration_formatted": "1:00:10"
}
Запомни job_id и audio_path.
Коды ошибок: 1 = файл не найден, 2 = нет аудио, 3 = ошибка FFmpeg.
python tools/transcribe.py "{audio_path}"
Флаги при необходимости:
--engine groq — другой движок--engine faster_whisper --model-size small — мало памяти--language ru — если язык определился неверноВывод: в stderr — сводка, в stdout — путь к transcript_raw.json.
| Движок | Флаг | Нужен ключ | Скорость | Качество |
|---|---|---|---|---|
| faster-whisper | --engine faster_whisper | Нет | Хорошая | Хорошее |
| Groq | --engine groq | GROQ_API_KEY | Очень быстро | Хорошее |
| OpenAI | --engine openai | OPENAI_API_KEY | Быстро | Отличное |
| WhisperX | --engine whisperx | Нет | Медленнее | Отличное |
Прочитай output/{job_id}/transcript_raw.json.
Обрати внимание:
meta.language — определился ли язык правильноsegments — массив с таймкодамиconfidence < 0.7 — ненадёжные сегменты, отметить [?]Что исправлять:
Что расставлять: точки, запятые, тире, вопросительные знаки.
Что НЕ делать: не менять смысл, не добавлять слова, не убирать разговорный стиль.
Группировка:
[HH:MM:SS] Текст.[?] после текстаЗаписать три файла в output/{job_id}/:
transcript_clean.txt[00:00:00] Первый абзац транскрипции.
[00:00:52] Второй абзац.
transcript_clean.srt1