Name: Autoresearch: Self-Improving Skills
Author: marcoapereirav-arch

搜索技能.../

Autoresearch: Self-Improving Skills | Skills Pool

Parametro	Default	Descripcion
`N`	5	Outputs generados por ciclo
`max_score`	N * num_criterios	Score maximo posible
`interval`	3 min	Tiempo entre ciclos
`target_score`	90% del max	Score para considerar "excelente"
`max_iterations`	30	Limite de iteraciones (seguridad de costo)
`budget`	$5 USD	Limite de gasto estimado

git checkout -b autoresearch/<skill-name>

iteration	score	max_score	pct	status	changes_summary

LOOP (hasta max_iterations o target_score):

  1. ANALIZAR — Leer resultados previos. Que fallo? Que patron emerge?

  2. HIPOTESIS — Formular UNA hipotesis clara:
     "Si cambio X en el prompt, deberia mejorar Y porque Z"

  3. MUTAR — Editar el SKILL.md del skill target
     - UN cambio por iteracion (aislamiento de variables)
     - Cambios en: instrucciones, ejemplos, restricciones, formato, orden
     - NUNCA tocar el frontmatter (name, description, allowed-tools)
     - NUNCA agregar criterios de eval al prompt (eso es gaming)

  4. COMMIT — git add + git commit ANTES de correr
     Mensaje: "autoresearch(<skill>): iter N — <hipotesis corta>"

  5. GENERAR — Correr el skill N veces con inputs variados
     - Usar inputs representativos del uso real del skill
     - Variar los inputs entre iteraciones (no siempre el mismo)
     - Capturar cada output

  6. EVALUAR — Para cada output, aplicar cada criterio (si/no)
     - Score = total de "si" / max_score
     - Si el skill produce outputs VISUALES: usar Claude vision para evaluar
     - Si el skill produce TEXTO: evaluar con criterios directos
     - Si el skill produce DATOS/QUERIES: evaluar precision y completitud

  7. DECIDIR:
     - Si score > best_score -> STATUS: keep
       -> El commit se queda. Actualizar best_score.
     - Si score <= best_score -> STATUS: discard
       -> git reset --hard HEAD~1 (revertir al commit anterior)
     - Si el skill crasheo -> STATUS: crash
       -> Intentar fix trivial. Si no, revertir y continuar.

  8. REGISTRAR — Append a autoresearch-results.tsv:
     iteration	score	max_score	pct	status	changes_summary

  9. REPETIR — Ir al paso 1. No parar. No preguntar.

## Autoresearch Report: <skill-name>

**Baseline:** X/Y (Z%)
**Final:** X/Y (Z%)
**Mejora:** +N% en M iteraciones
**Costo estimado:** ~$X USD
**Iteraciones:** N total (K kept, D discarded, C crashed)

### Cambios que mejoraron:
1. Iter 3: <cambio> -> +5%
2. Iter 7: <cambio> -> +3%
...

### Cambios que NO mejoraron:
1. Iter 2: <cambio> -> -2% (descartado)
...

### Prompt final vs original:
<diff resumido>

Criterio 1: El output contiene la informacion clave solicitada? (si/no)
Criterio 2: El tono es apropiado para el contexto? (si/no)
Criterio 3: La estructura es clara y facil de leer? (si/no)
Criterio 4: No hay informacion inventada o incorrecta? (si/no)

Criterio 1: Todo el texto es legible y sin errores? (si/no)
Criterio 2: Los colores y contraste son adecuados? (si/no)
Criterio 3: El layout es claro y organizado? (si/no)
Criterio 4: Comunica la idea sin ambiguedad? (si/no)

Criterio 1: El query/llamada retorna datos sin error? (si/no)
Criterio 2: Los resultados son correctos? (si/no)
Criterio 3: El formato de salida es legible? (si/no)
Criterio 4: Maneja edge cases correctamente? (si/no)

Criterio 1: El codigo compila/funciona sin errores? (si/no)
Criterio 2: Sigue los patrones del proyecto (Feature-First, etc)? (si/no)
Criterio 3: No introduce vulnerabilidades de seguridad? (si/no)
Criterio 4: Es mantenible y legible? (si/no)

Limite	Valor	Razon
Max iteraciones	30	Prevenir loops infinitos costosos
Budget estimado	$5 USD	Control de costos
Max prompt growth	2x original	Prevenir prompt bloat
Backup obligatorio	Siempre	Poder restaurar el original
Branch dedicado	Siempre	No contaminar main
Solo body del SKILL.md	Siempre	Frontmatter es sacrosanto

Autoresearch: Self-Improving Skills

Filosofia

Fase 1: Setup (con el usuario)

1.1 Identificar el skill target

1.2 Definir las Evals

Autoresearch: Self-Improving Skills

Filosofia

Fase 1: Setup (con el usuario)

1.1 Identificar el skill target

1.2 Definir las Evals

1.3 Definir parametros

1.4 Crear branch y baseline

Fase 2: El Loop (autonomo)

El ciclo exacto:

Reglas del loop

Criterio de simplicidad (de Karpathy)

Fase 3: Reporte

3.1 Generar resumen

3.2 Merge o esperar

Tipos de Evaluacion por Output

Texto (posts, reportes, descripciones)

Visual (diagramas, imagenes, UI)

Data/Queries (SQL, APIs, servicios)

Codigo (componentes, funciones, features)

Integracion con Skill Creator

Limites de Seguridad

Quick Start

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns