模型選擇與負載均衡指引 (Load Balancing Edition)

本指引旨在解決單一 Provider 的 Rate Limit 問題，透過分散流量來最大化系統吞吐量。

Provider 資源池 (Resource Pool)

我們將模型依據「智力/成本/速度」分為三層 (Tier)，並實施跨 Provider 的調度。

適用於：架構設計、複雜除錯、Refactoring Plan、根因分析

適用於：單元測試撰寫、單一函式實作、文件補全

本指引旨在解決單一 Provider 的 Rate Limit 問題，透過分散流量來最大化系統吞吐量。

我們將模型依據「智力/成本/速度」分為三層 (Tier)，並實施跨 Provider 的調度。

適用於：架構設計、複雜除錯、Refactoring Plan、根因分析

適用於：單元測試撰寫、單一函式實作、文件補全

任務類型 (Task Type)	建議 Subagent Type	優先 Provider 序列 (Primary -> Failover)
複雜編碼 (Complex Coding)	`coding`	OpenAI (GPT-4) -> Claude-cli -> Antigravity
日常維護 (Routine Maint)	`coding-light`	OpenAI (4o-mini) -> Gemini-cli -> Google-API
大量分析 (Batch Analysis)	`batch`	Gemini-cli -> Antigravity -> OpenAI
文件撰寫 (Docs)	`docs`	Antigravity -> Claude-cli -> OpenAI
快速查詢 (Quick Info)	`lightweight`	Google-API (Flash) -> GMICloud -> OpenAI (mini)

模型 (Model)	RPM (每分鐘)	TPM (每分鐘 Token)	RPD (每日請求)
Gemini 3 Pro	25	1M	250
Gemini 2.5 Flash Lite	4K	4M	Unlimited
Gemini 3 Flash	1K	1M	10K
Gemini 2.5 Pro	150	2M	1K
Gemini 2.5 Flash	1K	1M	10K