実験ログの自動抽出と進捗ファイルへの記録
実験結果をログファイルから自動抽出し、進捗管理ファイルに記録する。
ユーザーから exp_logs ディレクトリパスを受け取り、スクリプトを実行する:
uv run python3 scripts/summarize_experiment.py <ログディレクトリパス>
出力を確認し、抽出結果が正しいことを検証する。
reference/progress/experiment_log.md のテーブル末尾を読み、次の実験IDを採番する。
E001, E002, ... (3桁ゼロ埋め、連番)各実験について以下を確認する:
—テーブルに新しい行を追加する。各カラム:
| カラム | 情報源 |
|---|---|
| ID | 採番した実験ID |
| 日付 | batch.logのタイムスタンプから(MM/DD形式) |
| ベース | 文脈から判断(モデル名・コマンドの-mフラグ等) |
| 変更内容 | コマンドのoverride値・実験名から判断 |
| CV geo_mean | summary.jsonのtrain_geo_mean(学習時のval評価) |
| LB | ユーザーから取得 |
| 結果 | progress-tracking.mdの基準に従い判断(++/+/=/-/--) |
| モデルパス | summary.jsonのmodel_dir |
| 備考 | 推論結果・特記事項をまとめる |
| 関連実装 | 関連する実装IDがあれば記入、なければ — |
reference/progress/experiment_details.md に詳細ブロックを追記する。
形式は summary.txt の出力をベースに、実験IDとタイトルを付加:
E076: large + 30ep + BT(geo_mean>=70)
ログ:
data/exp_logs/20260304_2331/large_30ep_bt70.log
学習:
data/models/large_30ep_bt70_20260304_2331
Best epoch: 30, eval_loss: 1.9302, chrF: 63.73, BLEU: 43.320733, geo_mean: 52.543655
時間: 2h37m
推論:
chrF++: 50.23
BLEU: 30.0166
geo_mean: 38.8301
Results saved to data/result/20260305_0208
LB:
ベストスコアが更新された場合、reference/progress/dashboard.md を更新する。
train_geo_mean(学習時のval評価)と infer_geo_mean(推論時のval評価)は異なる値になることがあるinfer_geo_mean)を記入する。推論がない場合は学習時の値(train_geo_mean)を使う.claude/rules/progress-tracking.md を参照