LLMプロンプト(システムプロンプト・ユーザーテンプレート・指示文)を反復的に改善するスキル。 ユーザーが提供する実行コード・評価コード・評価データを使って自走しながらチューニングを行う。 提供がない場合はプロンプトを自ら実行して出力を確認・評価し修正する。 「プロンプトを改善して」「プロンプトチューニング」「プロンプト最適化」「このプロンプトをもっとよくして」 「システムプロンプトを改良したい」「improve this prompt」「prompt tuning」「prompt optimization」 などのリクエスト時に使用。
プロンプトを実行→評価→診断→修正のサイクルで反復改善する。すべての工程を自走で行う。
ユーザーから以下を受け取る(ない場合は後述のフォールバックで対応):
| 入力 | 説明 | なければ |
|---|---|---|
| 最適化対象のプロンプト | システムプロンプト / ユーザーテンプレート | 必須:必ず確認 |
| 改善目標 | 「より正確に」「JSON形式で出力」など | 出力を見て判断 |
| 実行コード | プロンプトを実際に動かすコード | Bash で直接 API 呼び出し |
| 評価コード / 評価データ | スコアリングロジックやテストケース | 目視で定性評価 |
実行コードが提供された場合: そのコードをそのまま使ってプロンプトを実行する。
提供されなかった場合: Bash で直接 API を呼び出す。例:
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{"model":"claude-haiku-4-5-20251001","max_tokens":1024,"system":"<プロンプト>","messages":[{"role":"user","content":"<テスト入力>"}]}'
評価コード / データが提供された場合: それを使ってスコアを算出する。
提供されなかった場合: 出力を目視確認し、以下の観点で定性評価する:
ベースラインの評価結果をユーザーに報告する。
references/prompt-engineering.md の失敗パターン表と改善テクニックを参照するStep 2 と同じ方法で改善後のプロンプトを実行し評価する。
## プロンプトチューニングレポート
### ベースライン評価
評価結果: [スコアまたは定性評価]
問題点: [特定した問題のリスト]
### 適用した改善
- [改善1]: [変更内容と理由]
- [改善2]: [変更内容と理由]
### 最終結果
評価結果: [スコアまたは定性評価]([ベースラインからの改善度])
### 最終プロンプト
[改善後のプロンプト全文]
references/prompt-engineering.md を参照