AI 에이전트 평가 시스템 구축

$ARGUMENTS를 기반으로 에이전트 평가 시스템을 구축한다. 인자가 없으면 사용자에게 대상 에이전트의 프레임워크와 평가 목적을 물어본다.

평가 전략 개요

AI 에이전트 평가는 3가지 측면을 다룬다:

기능 평가: 에이전트가 올바른 도구를 올바른 순서로 호출하는가?
응답 품질: 최종 응답이 기대에 부합하는가?
안정성: 동일 입력에 대해 일관된 결과를 내는가?

Google ADK Evalset 패턴

Google ADK는 JSON 기반 evalset을 제공한다.

Evalset 구조

{
  "eval_set_id": "MyAgentEval",
  "name": "MyAgentEval",
  "eval_cases": [
    {
      "eval_id": "BasicGreeting",
      "conversation": [
        {
          "invocation_id": "e-001",
          "user_content": {
            "parts": [{"text": "안녕하세요!"}],
            "role": "user"
          },
          "final_response": {
            "parts": [{"text": "안녕하세요! 무엇을 도와드릴까요?"}]
          },
          "intermediate_data": {
            "tool_uses": [],
            "intermediate_responses": []
          }
        },
        {
          "invocation_id": "e-002",
          "user_content": {
            "parts": [{"text": "서울 날씨 알려줘"}],
            "role": "user"
          },
          "final_response": {
            "parts": [{"text": "서울의 현재 날씨는..."}]
          },
          "intermediate_data": {
            "tool_uses": [
              {
                "id": "call_001",
                "name": "get_weather",
                "args": {"location": "Seoul"}
              }
            ]
          }
        }
      ],
      "session_input": {
        "app_name": "my_agent",
        "user_id": "test_user",
        "state": {}
      }
    }
  ]
}

Google ADK Evalset 패턴

Google ADK는 JSON 기반 evalset을 제공한다.

Evalset 구조

{ "eval_set_id": "MyAgentEval", "name": "MyAgentEval", "eval_cases": [ { "eval_id": "BasicGreeting", "conversation": [ { "invocation_id": "e-001", "user_content": { "parts": [{"text": "안녕하세요!"}], "role": "user" }, "final_response": { "parts": [{"text": "안녕하세요! 무엇을 도와드릴까요?"}] }, "intermediate_data": { "tool_uses": [], "intermediate_responses": [] } }, { "invocation_id": "e-002", "user_content": { "parts": [{"text": "서울 날씨 알려줘"}], "role": "user" }, "final_response": { "parts": [{"text": "서울의 현재 날씨는..."}] }, "intermediate_data": { "tool_uses": [ { "id": "call_001", "name": "get_weather", "args": {"location": "Seoul"} } ] } } ], "session_input": { "app_name": "my_agent", "user_id": "test_user", "state": {} } } ] }

원칙	설명
멀티턴 대화	단일 질문이 아닌 여러 턴의 대화 흐름 테스트
도구 호출 검증	`tool_uses`로 올바른 도구가 올바른 인자로 호출됐는지 확인
엣지 케이스	모호한 질문, 범위 밖 요청, 오류 상황 포함
초기 상태 설정	`session_input.state`로 테스트별 초기 컨텍스트 설정

메트릭	측정 방법
도구 호출 정확도	기대 도구 vs 실제 호출 도구 비교
응답 시간	첫 응답까지 걸린 시간 (TTFT)
도구 호출 횟수	불필요한 중복 호출 감지
핸드오프 정확도	올바른 에이전트로 라우팅됐는지
가드레일 정확도	False positive / False negative 비율

메트릭	평가 방법
응답 관련성	LLM-as-Judge로 응답 품질 평가
일관성	동일 입력 5회 실행 후 구조적 유사도 비교
톤/스타일	브랜드 가이드라인 준수 여부

Agent Evaluation

AI 에이전트 평가 시스템 구축

평가 전략 개요

Google ADK Evalset 패턴

Evalset 구조

Agent Evaluation

AI 에이전트 평가 시스템 구축

평가 전략 개요

Google ADK Evalset 패턴

Evalset 구조

Evalset 파일 위치

ADK Eval 실행

Evalset 설계 원칙

OpenAI Agents SDK 테스트 패턴

단위 테스트 (도구 검증)

통합 테스트 (에이전트 실행)

CrewAI 테스트 패턴

Crew 출력 검증

Flow 상태 검증

LangGraph 테스트 패턴

공통 평가 메트릭

정량 메트릭

정성 메트릭

LLM-as-Judge 패턴

평가 자동화 (pytest 기반)

pyproject.toml에 pytest 추가

테스트 실행

테스트 디렉토리 구조

참고 문서

Openai Whisper

Voice Call

Prose

Clawhub

Sherpa Onnx Tts

Openai Whisper Api