SKILL: AI Cost Control

The Problem

An unbounded LLM call costs $0 to $100+ depending on context and output. Without guardrails, a single feature can cost thousands per month.

Hard Rules (never break these)

# RULE 1: Every LLM call has max_tokens set
# ❌ WRONG — unbounded cost
response = await client.messages.create(
    model="claude-sonnet-4-5",
    messages=[{"role": "user", "content": long_prompt}]
)

# ✅ CORRECT — cost bounded
response = await client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=4096,  # ← maximum output
    messages=[...]
)

# RULE 2: Rate limit AI endpoints (prevent repeated calls)
# Use slowapi or similar
@app.post("/api/v1/ai/generate")
@limiter.limit("20/minute")  # max 20 calls/min per user
async def generate(request: Request, ...):
    ...

# RULE 3: Use cheapest model that works
# Costs (approximate, check current pricing):
#   Haiku: $0.80 per 1M input tokens (30% of Sonnet)
#   Sonnet: $3 per 1M input tokens (20% of Opus)
#   Opus: $15 per 1M input tokens (most expensive)
# Route: use Haiku for simple tasks, Sonnet for complex

async def route_to_model(complexity: str) -> str:
    if complexity == "simple":
        return "claude-haiku-4-5"  # 70% cheaper
    elif complexity == "complex":
        return "claude-sonnet-4-5"
    else:
        return "claude-opus-4-6"    # only for critical work

# RULE 4: Streaming > full response (cap output cost)
async for event in client.messages.stream(...):
    if event.type == "content_block_delta":
        chunk = event.delta.text
        yield chunk
# Stop streaming if user closes connection (saves money)

Hard Rules (never break these)

# RULE 1: Every LLM call has max_tokens set # ❌ WRONG — unbounded cost response = await client.messages.create( model="claude-sonnet-4-5", messages=[{"role": "user", "content": long_prompt}] ) # ✅ CORRECT — cost bounded response = await client.messages.create( model="claude-sonnet-4-5", max_tokens=4096, # ← maximum output messages=[...] ) # RULE 2: Rate limit AI endpoints (prevent repeated calls) # Use slowapi or similar @app.post("/api/v1/ai/generate") @limiter.limit("20/minute") # max 20 calls/min per user async def generate(request: Request, ...): ... # RULE 3: Use cheapest model that works # Costs (approximate, check current pricing): # Haiku: $0.80 per 1M input tokens (30% of Sonnet) # Sonnet: $3 per 1M input tokens (20% of Opus) # Opus: $15 per 1M input tokens (most expensive) # Route: use Haiku for simple tasks, Sonnet for complex async def route_to_model(complexity: str) -> str: if complexity == "simple": return "claude-haiku-4-5" # 70% cheaper elif complexity == "complex": return "claude-sonnet-4-5" else: return "claude-opus-4-6" # only for critical work # RULE 4: Streaming > full response (cap output cost) async for event in client.messages.stream(...): if event.type == "content_block_delta": chunk = event.delta.text yield chunk # Stop streaming if user closes connection (saves money)

Ai Cost Control

SKILL: AI Cost Control

The Problem

Hard Rules (never break these)

Ai Cost Control

SKILL: AI Cost Control

The Problem

Hard Rules (never break these)

Cost Estimation Before Building

Cost Monitoring

Caching Strategy (prevent repeated expensive calls)

Token Budget Allocation

Shutdown Mechanisms (prevent runaway costs)

Monthly Cost Review

Quality checks

Llm Trading Agent Security

Energy Procurement

Council

Carrier Relationship Management

Market Research

Market Research