Name: Podcast Generator
Author: cncoder

Podcast Generator

本地 AI 播客生成 + TTS 语音克隆系统（Apple Silicon only）。包含完整可运行的 TTS 引擎代码和参考音频。当用户提到播客、podcast、圆桌派、roundtable、做一期节目、生成音频、TTS、语音合成、voice clone、把文章变成语音、读一下这段话、有声书、做个音频节目时触发。也适用于调试 TTS 质量、管理播客输出等场景。

cncoder2 星標2026年4月3日

職業
分類: LLM 同 AI

Skill: podcast-generator

Apple Silicon only (M1/M2/M3/M4)。mlx 不支持 Intel Mac 或 Linux。

本地中文双人对话式播客生成系统（圆桌派风格）。两位主持人交替发言，自动分配左右声道，生成有临场感的播客音频。包含完整可运行的 TTS 引擎和参考音频，开箱即用。

核心能力：

中文对话式播客生成（双主持人，stereo 立体声，MP3 192kbps）
单段文字语音合成（独立 TTS 调用，MP3 128kbps）
断点续传 + 跨日缓存（长播客不怕中断）
自带两个 demo 声音（男声 + 女声参考音频，assets/voices/），装好依赖即可直接跑

性能参考（M4 芯片）：

首次运行自动下载模型（~800MB，约 2-5 分钟，之后缓存）
模型加载：~30s（首次）/ ~5s（已缓存）
合成速率：约 1:1（30 分钟音频 ≈ 30 分钟生成时间）
10000 字脚本 ≈ 27 分钟音频

目录结构

podcast-generator/
├── SKILL.md                          # 本文件
├── scripts/
│   ├── podcast_tts.py                # 播客 TTS 入口（可配置 voice/model）
│   ├── tts-clone.sh                  # 独立单句 TTS（bash 脚本）
│   └── loqui_tts/                    # TTS 核心引擎库
│       ├── __init__.py
│       ├── config.py                 # TTSConfig / VoiceConfig
│       ├── chunker.py                # 文本清理 + 按句断 chunk
│       ├── dialogue.py               # 【角色】标记解析
│       └── engine.py                 # 进程隔离 worker + 质量检测 + 合并
├── assets/voices/
│   ├── host_female_10s.wav           # 女声参考音频（10s, 24kHz mono）
│   └── host_male_12s.wav             # 男声参考音频（12s, 24kHz mono）
└── references/
    ├── tts-module.md                 # TTS 详细文档（Server API、ASR、缓存）
    ├── data-sources.md               # 数据源板块详情
    └── troubleshooting.md            # 故障排查

Podcast Generator

cncoder2 星標2026年4月3日

職業
分類: LLM 同 AI

Skill: podcast-generator

Apple Silicon only (M1/M2/M3/M4)。mlx 不支持 Intel Mac 或 Linux。

核心能力：

中文对话式播客生成（双主持人，stereo 立体声，MP3 192kbps）

单段文字语音合成（独立 TTS 调用，MP3 128kbps）

断点续传 + 跨日缓存（长播客不怕中断）

自带两个 demo 声音（男声 + 女声参考音频，assets/voices/），装好依赖即可直接跑

性能参考（M4 芯片）：

首次运行自动下载模型（~800MB，约 2-5 分钟，之后缓存）

模型加载：~30s（首次）/ ~5s（已缓存）

合成速率：约 1:1（30 分钟音频 ≈ 30 分钟生成时间）

10000 字脚本 ≈ 27 分钟音频

目录结构

podcast-generator/ ├── SKILL.md # 本文件 ├── scripts/ │ ├── podcast_tts.py # 播客 TTS 入口（可配置 voice/model） │ ├── tts-clone.sh # 独立单句 TTS（bash 脚本） │ └── loqui_tts/ # TTS 核心引擎库 │ ├── __init__.py │ ├── config.py # TTSConfig / VoiceConfig │ ├── chunker.py # 文本清理 + 按句断 chunk │ ├── dialogue.py # 【角色】标记解析 │ └── engine.py # 进程隔离 worker + 质量检测 + 合并 ├── assets/voices/ │ ├── host_female_10s.wav # 女声参考音频（10s, 24kHz mono） │ └── host_male_12s.wav # 男声参考音频（12s, 24kHz mono） └── references/ ├── tts-module.md # TTS 详细文档（Server API、ASR、缓存） ├── data-sources.md # 数据源板块详情 └── troubleshooting.md # 故障排查

组件	技术	可替换
TTS 模型	Qwen3-TTS-12Hz-0.6B-Base-8bit (mlx)	改 `MODEL_ID`，可选 mlx-community TTS 模型
ASR 模型	Qwen3-ASR-0.6B-8bit (mlx)	改 `ASR_MODEL_ID`，或禁用
音频处理	numpy + soundfile + pyloudnorm	—
编码	ffmpeg (WAV → MP3)	—
Python	3.12（mlx 依赖 3.12 C API）	不可替换

症状	修复
TTS 超时	重新运行，断点续传自动恢复
音频质量差	检查参考音频质量 + 确认无并行 TTS
python3.12 找不到	`brew install [email protected]`
ffmpeg 找不到	`brew install ffmpeg`
模型下载慢	`HF_ENDPOINT=https://hf-mirror.com` 设置镜像

文件	何时读取
`references/script-prompt.md`	用 LLM 生成播客脚本的提示词模板（首次使用必读）
`references/tts-module.md`	TTS Server HTTP API、ASR 回检细节、缓存机制
`references/data-sources.md`	每日日报板块配置（用于完整播客 pipeline）
`references/troubleshooting.md`	遇到故障时

Podcast Generator

Skill: podcast-generator

目录结构

Podcast Generator

Skill: podcast-generator

目录结构

30 秒快速启动

更多用法

单句 TTS（最快体验）

完整播客脚本

自定义声音

技术栈

核心代码说明

podcast_tts.py — 播客 TTS 入口

loqui_tts/engine.py — TTS 核心引擎

tts-clone.sh — 独立单句 TTS

重要约束

参考音频要求

故障排查

Reference 文件

Openai Whisper

Voice Call

Prose

Clawhub

Sherpa Onnx Tts

Openai Whisper Api