Audio Transcriber | Skills Pool

技能档案

Audio Transcriber

Use this skill when a user provides an audio file (local file or URL) and wants it transcribed into Traditional Chinese text. Prefer this skill for requests like "transcribe this audio", "convert speech to text", "轉錄這段錄音", "語音轉文字", or when converting meeting recordings, voice memos, or podcast clips to text. The output can be further processed by meeting-note-formatter for structured meeting notes.

ratioclaw0 星标2026年3月21日

职业
分类: 文档

技能内容

音訊轉繁中逐字稿 Skill

使用 Gemini Interactions API 的原生音訊理解能力，將音訊檔案轉錄為繁體中文逐字稿。支援本機檔案與遠端 URL，當偵測到多位說話者時會自動標記區分。輸出的逐字稿可搭配 meeting-note-formatter skill 進一步整理為結構化會議紀錄。

需求條件

GEMINI_API_KEY 環境變數必須設定
有效的遠端音訊 URL、data URI 或可讀取的本機音訊檔案
Node.js >= 20.0.0
支援格式：.mp3、.wav、.ogg、.flac、.m4a、.aac、.webm、.wma

使用方式

直接執行預建腳本 — 不需要 npm install 或額外設定：

node .agents/skills/audio-transcriber/scripts/transcribe.js <audio-path-or-url>

範例

遠端 URL：

相关技能

GEMINI_API_KEY=your_api_key node .agents/skills/audio-transcriber/scripts/transcribe.js "https://example.com/audio/meeting.mp3"

GEMINI_API_KEY=your_api_key node .agents/skills/audio-transcriber/scripts/transcribe.js "./recordings/meeting.m4a"

# 先轉錄音訊
GEMINI_API_KEY=your_api_key node .agents/skills/audio-transcriber/scripts/transcribe.js "recording.mp3" > transcript.md

# 再用 meeting-note-formatter 整理成會議紀錄

AUDIO_TRANSCRIBER_DRY_RUN=1 node .agents/skills/audio-transcriber/scripts/transcribe.js "https://example.com/test.mp3"

{
  "source": "remote-url",
  "mimeType": "audio/mpeg",
  "localPath": null,
  "uriPreview": "data:audio/mpeg;base64,..."
}

向使用者取得音訊檔案的 URL 或本機路徑（如果尚未提供）。
確認環境中已設定 GEMINI_API_KEY。

執行轉錄腳本：

node .agents/skills/audio-transcriber/scripts/transcribe.js "<audio-path-or-url>"

如果輸入是本機檔案路徑或 file:// URL，腳本會自動轉換為 Base64 data URI。
將生成的逐字稿呈現給使用者。
如果使用者需要進一步整理為會議紀錄，建議搭配 meeting-note-formatter skill 處理轉錄結果。
如果腳本以非零狀態碼退出，將錯誤訊息回報給使用者。

cd .agents/skills/audio-transcriber
bun install
bun build src/transcribe.js --outfile scripts/transcribe.js --target node --minify