Name: Agent FinOps
Author: saifyxpro

Design cost-efficient AI agent architectures with model tiering, token budgeting, and caching.

Workflow

Model Tiering

Three model tiers for different task complexities. Read references for templates.

Tier	Model Class	Use For

Design cost-efficient AI agent architectures with model tiering, token budgeting, and caching.

Three model tiers for different task complexities. Read references for templates.

Tier	Model Class	Use For

Frontier	GPT-4o, Claude Opus, Gemini Ultra	Complex reasoning, planning, orchestration	`references/01-model-tiering.md`
Mid-Tier	GPT-4o-mini, Claude Sonnet, Gemini Pro	Standard tasks, code generation	`references/01-model-tiering.md`
Economy	GPT-3.5, Claude Haiku, Gemini Flash	High-frequency, simple execution	`references/01-model-tiering.md`

Component	Description	Reference
Planner	Frontier model creates strategy (high cost, low frequency)	`references/02-plan-and-execute.md`
Executor	Economy model follows plan (low cost, high frequency)	`references/02-plan-and-execute.md`
Verifier	Mid-tier model checks results (medium cost, as needed)	`references/02-plan-and-execute.md`

Strategy	Savings	Reference
Response Caching	40-80% for repeated queries	`references/03-token-optimization.md`
Structured Outputs	20-40% vs free-form text	`references/03-token-optimization.md`
Context Compression	30-50% on conversation history	`references/03-token-optimization.md`
Batch Processing	10-30% on similar requests	`references/03-token-optimization.md`

Metric	Description	Reference
Cost per Interaction	Average spend per user session	`references/04-cost-monitoring.md`
Token Efficiency	Useful output tokens / total tokens	`references/04-cost-monitoring.md`
Cache Hit Rate	Percentage of requests served from cache	`references/04-cost-monitoring.md`
Model Tier Distribution	Percentage of requests per tier	`references/04-cost-monitoring.md`