Técnicas avanzadas para extender la capacidad efectiva del contexto mediante compactación, enmascaramiento, optimización de caché KV y particionamiento.
Esta habilidad permite maximizar la utilidad de la ventana de contexto mediante estrategias de compresión, enmascaramiento y particionamiento. El objetivo es duplicar o triplicar la capacidad efectiva sin necesidad de modelos más grandes, reduciendo latencia y costo.
Mental Model: La calidad del contexto importa más que la cantidad. Optimizar es preservar la señal mientras se elimina el ruido técnico y conversacional.
| Estrategia | Método | Impacto |
|---|---|---|
| Compaction | Resumen estructurado cerca de límites. | Reducción del 50-70%. |
| Observation Masking | Reemplazo de outputs verbosos por referencias. | Reducción del 60-80% en tool logs. |
| KV-Cache Opt | Reordenamiento para maximizar prefijos estables. | Latencia -40%, Costo -50%. |
| Partitioning | División de tareas en sub-agentes aislados. | Aislamiento total de ruido. |
Las salidas de herramientas (tool outputs) pueden representar el 80% del uso de tokens. Una vez procesadas, mantener el log completo tiene un valor decreciente y un costo creciente.
Sustituye salidas largas por un resumen y un ID de referencia.
[OBSERVATION MASKED: output_log_42]
Key Findings: Error 404 in /api/auth.
Full log stored in artifacts/logs/auth_error.log
Ordena el contexto para maximizar los "cache hits" del motor Gemini.
context-fundamentals: Base para la jerarquía de información.multi-agent-patterns: Particionamiento como método de aislamiento.memory-systems: Descarga de contexto a sistemas de memoria externa.references/optimization_techniques.md: Guía técnica de presupuestos de tokens, patrones de enmascaramiento y benchmarks de rendimiento.