Monitor Experiment Results

Monitor: $ARGUMENTS

Workflow

Step 1: Check What's Running

SSH server:

ssh <server> "screen -ls"

Vast.ai instance (read ssh_host, ssh_port from vast-instances.json):

ssh -p <PORT> root@<HOST> "screen -ls"

Also check vast.ai instance status:

vastai show instances

Modal (when gpu: modal in CLAUDE.md):

modal app list         # List running/recent apps
modal app logs <app>   # Stream logs from a running app

ssh <server> "screen -S <name> -X hardcopy /tmp/screen_<name>.txt && tail -50 /tmp/screen_<name>.txt"

ssh <server> "ls -lt <results_dir>/*.json 2>/dev/null | head -20"

ssh <server> "cat <results_dir>/<latest>.json"

# List recent runs in the project
ssh <server> "python3 -c \"
import wandb
api = wandb.Api()
runs = api.runs('<entity>/<project>', per_page=10)
for r in runs:
    print(f'{r.id}  {r.state}  {r.name}  {r.summary.get(\"eval/loss\", \"N/A\")}')
\""

# Pull specific metrics from a run (last 50 steps)
ssh <server> "python3 -c \"
import wandb, json
api = wandb.Api()
run = api.run('<entity>/<project>/<run_id>')
history = list(run.scan_history(keys=['train/loss', 'eval/loss', 'eval/ppl', 'train/lr'], page_size=50))
print(json.dumps(history[-10:], indent=2))
\""

# Pull run summary (final metrics)
ssh <server> "python3 -c \"
import wandb, json
api = wandb.Api()
run = api.run('<entity>/<project>/<run_id>')
print(json.dumps(dict(run.summary), indent=2, default=str))
\""

Monitor Experiment | Skills Pool

Monitor Experiment

Monitor Experiment

Monitor Experiment Results

Workflow

Step 1: Check What's Running

Step 2: Collect Output from Each Screen

Step 3: Check for JSON Result Files

Step 3.5: Pull W&B Metrics (when `wandb: true` in CLAUDE.md)

Automation Audit Ops

Github Qa Labels

Jupyter Notebook

Tidb Integrationtest Recorder

Quality Nonconformance

Hugging Face Trackio

Monitor Experiment

Monitor Experiment

Monitor Experiment Results

Workflow

Step 1: Check What's Running

Step 2: Collect Output from Each Screen

Step 3: Check for JSON Result Files

Step 3.5: Pull W&B Metrics (when wandb: true in CLAUDE.md)

Automation Audit Ops

Github Qa Labels

Jupyter Notebook

Tidb Integrationtest Recorder

Quality Nonconformance

Hugging Face Trackio

Step 3.5: Pull W&B Metrics (when `wandb: true` in CLAUDE.md)