音频驱动的稀疏帧视频配音工具,支持音频驱动的 Video-to-Video 和 Image-to-Video 生成,实现精准的唇形、头部、身体姿态同步,支持无限时长视频生成
准备输入
执行生成
scripts/infer_infinitetalk.py 进行推理input_path: 输入图片路径audio_path: 驱动音频路径(或提供 text 使用 TTS)output_path: 输出视频路径mode: clip(单段)或 streaming(长视频)size: infinitetalk-480(480P)或 infinitetalk-720(720P)sample_steps: 采样步数(默认 40)sample_audio_guide_scale: 音频引导强度(默认 4.0)验证输出
sample_audio_guide_scale 参数准备输入
执行生成
input_path 指向视频文件处理长视频
streaming 模式生成无限时长视频motion_frame 参数控制驱动帧长度(默认 9)文本转语音
生成视频
(s1) 和 (s2) 区分说话人)size=infinitetalk-480)--quant int8 参数)--offload_model true)python scripts/infer_infinitetalk.py \
--input_path ./input.jpg \
--audio_path ./audio.wav \
--output_path ./output.mp4 \
--size infinitetalk-480 \
--mode clip
python scripts/infer_infinitetalk.py \
--input_path ./input.jpg \
--audio_path ./long_audio.wav \
--output_path ./long_output.mp4 \
--size infinitetalk-480 \
--mode streaming
python scripts/infer_infinitetalk.py \
--input_path ./input.jpg \
--text "你好,今天天气真不错" \
--output_path ./tts_output.mp4 \
--size infinitetalk-480