ドローンコントローラーの評価を実行する。controller/ の変更から patch.diff を生成し、 Agent Runner を使って CoppeliaSim 上でベースラインと候補を評価する。 コントローラーコードの変更を評価したい場合やシミュレーション比較を実行したい場合に使用する。
このスキルは、コントローラーコードの変更をベースラインに対してエンドツーエンドで評価します。
ワークフロー:
controller/ の変更から patch.diff を生成詳細な手順は references/workflow.md を参照してください。
パッチを生成して評価を実行:
bash scripts/run-eval.sh --goal "最適化の目標を記述"
scripts/run-eval.sh — メインのエントリーポイント。ワーキングツリーからパッチを生成し、評価を実行し、サマリーを表示する。scripts/gen-patch.sh — コミットされていない controller/ の変更から patch.diff を生成する。scripts/show-results.sh — 完了した実行のメトリクスとサマリーを表示する。controller/ 配下のファイルを編集してドローンの動作を改善する(例:ゲインの調整、ロジックの変更)。
bash scripts/run-eval.sh --goal "成功率を維持しつつ衝突回数を減らす"
スクリプトは以下を行います:
controller/ の変更からパッチを生成bash scripts/show-results.sh <run_id>
またはアーティファクトを直接確認:
cat $ARTIFACTS_ROOT/runs/<run_id>/summary.json | python3 -m json.tool
cat $ARTIFACTS_ROOT/runs/<run_id>/metrics.json | python3 -m json.tool
スクリプトは以下の環境変数を参照します(デフォルト値あり):
| 変数 | デフォルト値 | 説明 |
|---|---|---|
ARTIFACTS_ROOT | /tmp/drone-poc/artifacts | 実行アーティファクトの保存先 |
WORKSPACE_ROOT | /tmp/drone-poc/workspace | クリーンクローンの作成先 |
COPPELIASIM_HOST | 127.0.0.1 | CoppeliaSim ホスト |
COPPELIASIM_PORT | 23000 | CoppeliaSim ポート |
controller/ の変更がない場合、パッチ生成ステップが明確なメッセージで失敗する。stdout.log のパスを表示する。