AI 에이전트가 자율적으로 벤치마크를 실행하고 설정을 최적화하는 자가 개선 시스템
이 스킬은 Karpathy의 autoresearch에서 영감을 받은 자가 개선 시스템입니다. 에이전트가 자율적으로 설정을 변경하고, 벤치마크를 실행하며, 개선된 설정만 유지합니다.
POST /api/autoresearch
Body: {
"maxExperiments": 10,
"improvementThreshold": 0.5
}
GET /api/autoresearch
GET /api/autoresearch/results
DELETE /api/autoresearch
| 카테고리 | 측정 항목 | 평가 방식 |
|---|---|---|
| tool_selection | 올바른 도구 선택 | Jaccard 유사도 |
| response_quality | 응답 품질 | LLM-as-Judge + 키워드 |
| reasoning | 추론 능력 | 정답 키워드 매칭 |
| instruction_following | 지시 따르기 | 형식 키워드 + LLM |