Funasr Transcribe | Skills Pool

技能內容

本 skill 提供本地语音识别服务，将音频或视频文件转换为结构化的 Markdown 文档。

功能概述

支持多种音视频格式（mp4、mov、mp3、wav、m4a、flac 等）
自动生成时间戳
支持说话人分离（diarization，默认启用）
视频关键帧截图提取：自动检测并提取 PPT 幻灯片，插入到转录稿对应位置（视频文件自动启用）
转录后自动附带 AI 总结提示词，Agent 可一步完成总结
输出 Markdown 格式，便于阅读和编辑

Agent 默认工作流（转录 + 自动总结）

当用户请求转录音频/视频时，应遵循以下流程，一次性完成转录和 AI 总结：

前置步骤（必须第一个执行）：设置 PATH。 某些执行环境（如 agent-executor headless 模式）的 PATH 被限制为只有插件目录，curl、python3 等系统命令找不到。必须先执行：

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH"

之后所有 bash 命令都必须在同一命令块中跟在 export PATH=... 后面，或在每个命令块开头都加上这行。

步骤 0：环境检测（自动）

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && cd <skill目录> && python3 scripts/init_env.py

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && cd <skill目录> && python3 scripts/setup.py

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && curl -s http://127.0.0.1:8765/health

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && cd <skill目录> && python3 scripts/server.py --idle-timeout 600 &

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && curl -s -X POST http://127.0.0.1:8765/transcribe \
  -H "Content-Type: application/json" \
  -d '{"file_path": "/path/to/audio.aac"}'

{
  "full_summary": "至少400字，分成2-3段，交代背景、问题、关键事实、数据、风险与行动建议",
  "speaker_summary": [
    {
      "speaker_order": "发言人1",
      "speaker_name": "如能识别请写姓名，否则写未知",
      "summary": "至少180字，涵盖该发言人的观点、依据、数据、态度与潜在影响"
    }
  ],
  "highlights": ["6-10条重点，每条60-100字"],
  "keywords": ["5-8个关键词"]
}

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && cat > /tmp/summary_<文件名>.json << 'JSONEOF'
{步骤3生成的JSON内容}
JSONEOF
python3 <skill目录>/scripts/summary.py inject "<output_path>" /tmp/summary_<文件名>.json

export PATH="/opt/homebrew/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:$PATH" && python3 <skill目录>/scripts/summary.py verify "<output_path>"

用户：转录这个音频
  ↓
Agent：
  1. 检查/启动服务
  2. POST /transcribe {"file_path": "xxx.aac"}  ← 一次调用拿到转录+提示词
  3. 根据转录内容直接生成总结 JSON
  4. 写 JSON 到临时文件 → python3 summary.py inject 注入
  5. python3 summary.py verify 验证 → 失败则重试步骤 4
  ↓
用户：收到带 AI 总结的 Markdown 文件

python3 scripts/check_env.py

Python3 命令不可用：

# macOS 使用 homebrew 安装 Python
brew install [email protected]

curl 不可用：

# macOS 确保 curl 已安装
brew install curl

验证环境修复后，重新运行检测：
```
python3 scripts/check_env.py
```

python3 scripts/setup.py

python3 scripts/setup.py --verify

python3 scripts/server.py

python3 scripts/server.py --idle-timeout 1800

# 转录单个文件
python3 scripts/transcribe.py /path/to/audio.mp3

# 指定输出路径
python3 scripts/transcribe.py /path/to/video.mp4 -o transcript.md

# 启用说话人分离
python3 scripts/transcribe.py /path/to/meeting.m4a --diarize

# 批量转录目录
python3 scripts/transcribe.py /path/to/media_folder/

# 提取视频关键帧截图（PPT幻灯片）
python3 scripts/transcribe.py /path/to/video.mp4 --slides

# 自定义场景检测阈值（值越低越灵敏，默认20.0）
python3 scripts/transcribe.py /path/to/video.mp4 --slides --slide-threshold 15.0

# 转录并自动生成总结（Claude Code 原生环境，无需配置 API Key）
python3 scripts/transcribe.py /path/to/audio.m4a --auto-summary

# 完整流程：说话人分离 + 自动总结
python3 scripts/transcribe.py /path/to/meeting.m4a --diarize --auto-summary

# 转录单个文件（输出提示词供手动调用）
python3 scripts/transcribe.py /path/to/audio.mp3

# 禁用自动总结（只输出提示词）
python3 scripts/transcribe.py /path/to/audio.m4a --no-summary

curl http://127.0.0.1:8765/health

curl -X POST http://127.0.0.1:8765/transcribe \
  -H "Content-Type: application/json" \
  -d '{"file_path": "/path/to/audio.mp3"}'

# 提取视频关键帧截图
curl -X POST http://127.0.0.1:8765/transcribe \
  -H "Content-Type: application/json" \
  -d '{"file_path": "/path/to/video.mp4", "extract_slides": true}'

{
  "status": "ok",
  "service": "FunASR Transcribe",
  "uptime": 300,
  "idle_time": 120
}

脚本	用途
`scripts/init_env.py`	环境检测 + 生成 skill-env.json
`scripts/check_env.py`	环境检测（简化版）
`scripts/setup.py`	一键安装依赖和下载模型
`scripts/server.py`	启动 HTTP API 服务
`scripts/transcribe.py`	命令行客户端
`scripts/auto_transcribe.py`	自动化转录脚本（推荐）

# 自动转录 + 获取总结提示词（说话人分离默认启用）
python3 scripts/auto_transcribe.py /path/to/audio.aac

# 禁用说话人分离
python3 scripts/auto_transcribe.py /path/to/audio.aac --no-diarize

# 只获取总结提示词，不生成总结
python3 scripts/auto_transcribe.py /path/to/audio.aac --prompt-only

curl -X POST http://127.0.0.1:8765/transcribe \
  -H "Content-Type: application/json" \
  -d '{"file_path": "/path/to/audio.aac"}'

curl -X POST http://127.0.0.1:8765/inject_summary \
  -H "Content-Type: application/json" \
  -d '{
    "md_path": "/path/to/audio.md",
    "summary_content": "## AI 摘要\n\n### 全文总结\n...\n\n### 重点内容\n- ...\n\n### 关键词\n..."
  }'

端点	方法	功能
`/health`	GET	健康检查
`/transcribe`	POST	转录音频/视频
`/batch_transcribe`	POST	批量转录目录
`/summary`	POST	生成 AI 总结提示词
`/inject_summary`	POST	将总结注入 Markdown 文件
`/verify_summary`	POST	验证摘要是否已注入

# 转录：视频.mp4

## 转录内容

发言人1 00:02:49
![](slides/slide_001_02m49s.jpg)
各位好，今天我们来讲...

发言人1 00:03:30
![](slides/slide_002_03m30s.jpg)
这是第二段的内容...

python3 scripts/setup.py --verify

python3 scripts/setup.py --skip-deps

Funasr Transcribe | Skills Pool