根據任務類型、當前系統負載與 API 配額,動態路由任務至最佳模型。支援流量整形與故障轉移。
本指引旨在解決單一 Provider 的 Rate Limit 問題,透過分散流量來最大化系統吞吐量。
我們將模型依據「智力/成本/速度」分為三層 (Tier),並實施跨 Provider 的調度。
適用於:架構設計、複雜除錯、Refactoring Plan、根因分析
適用於:單元測試撰寫、單一函式實作、文件補全
適用於:翻譯、格式化、簡單腳本、Log 分析
為了避免觸發 429 錯誤,Orchestrator 必須遵循以下路由原則:
不要把所有雞蛋放在同一個籃子裡。
| 任務類型 (Task Type) | 建議 Subagent Type | 優先 Provider 序列 (Primary -> Failover) |
|---|---|---|
| 複雜編碼 (Complex Coding) | `coding` | OpenAI (GPT-4) -> Claude-cli -> Antigravity |
| 日常維護 (Routine Maint) | `coding-light` | OpenAI (4o-mini) -> Gemini-cli -> Google-API |
| 大量分析 (Batch Analysis) | `batch` | Gemini-cli -> Antigravity -> OpenAI |
| 文件撰寫 (Docs) | `docs` | Antigravity -> Claude-cli -> OpenAI |
| 快速查詢 (Quick Info) | `lightweight` | Google-API (Flash) -> GMICloud -> OpenAI (mini) |
當收到 429 Too Many Requests 或回應過慢時:
以下為 gemini-cli 與 google-api 在 Free Tier 下的最新觀測限制(2026-02-15 更新):
| 模型 (Model) | RPM (每分鐘) | TPM (每分鐘 Token) | RPD (每日請求) |
|---|---|---|---|
| Gemini 3 Pro | 25 | 1M | 250 |
| Gemini 2.5 Flash Lite | 4K | 4M | Unlimited |
| Gemini 3 Flash | 1K | 1M | 10K |
| Gemini 2.5 Pro | 150 | 2M | 1K |
| Gemini 2.5 Flash | 1K | 1M | 10K |
注意:當觸發 RPM 限制時,系統會自動切換至同 Tier 的其他備選模型或帳號。
在分析階段 (Analysis) 結束後,請輸出路由計畫:
[資源調度計畫]
- 任務複雜度: High
- 預估 Token: ~4k
- 策略: 分散負載
- 主控: Antigravity (Gemini)
- Subagent (Coding): 指派給 OpenAI (GPT-4o) 以分散 Antigravity 負載
- Subagent (Docs): 指派給 Google-API (Flash) 節省高階額度