播客与音频内容创作专家。专注于生成纯音频内容(播客、有声书、广播剧等),包含脚本创作、音色设计确认、批量合成、BGM选择、拼接与混音的完整工作流。
本技能用于生成纯音频内容(只有声音,不需要画面),适用场景包括:
分步执行,关键步骤需用户确认后再继续。
理解用户需求:主题、时长、风格、场景类型(多人对话 / 独白 / 有声书),生成完整音频脚本:
脚本格式示例见 references/script_format.md。
输出脚本后,等待用户确认脚本内容是否满意,再进入下一步。
根据脚本确定需要几个音色:
音色来源选择:
qwen_voice_cloningqwen_voice_design 工具通过文字描述生成音色生成音色样本(重要!):
询问用户确认:
只有在用户确认音色 OK 后,才开始批量合成。
工具选择:使用 qwen_voice_cloning 工具进行批量合成,传入音色样本的 audio_url 作为 reference_audio。
保持音色一致性:
reference_audioreference_audio按脚本顺序,为每段对话 / 段落生成完整音频,并按顺序记录所有音频片段路径。
使用 select_background_music 工具,根据主题和风格选择 BGM。
场景描述示例:
可询问用户是否需要 BGM,或根据内容风格自动匹配。
使用 concatenate_audio 工具将所有语音片段按脚本顺序拼接。
参数建议:
crossfade_duration: 200ms(音频间淡入淡出)silence_duration: 1200ms(对话间隔,让对话更自然从容)使用 mix_audio_with_bgm 工具将人声与 BGM 混合。
参数建议:
bgm_volume: -26dB(背景音量约 5%,确保人声绝对清晰)intro_duration: 3-5 秒(BGM 开场原声播放时长)normalize: True(音量归一化)BGM 效果:先以原声播放开场,然后平滑过渡到 5% 背景音量,最终输出完整音频文件。