Name: Evaluate Multimodal
Author: langwatch

Evaluate Your Multimodal Agent

This recipe helps you evaluate agents that process images, audio, PDFs, or other non-text inputs.

Step 1: Identify Modalities

Read the codebase to understand what your agent processes:

Images: classification, analysis, generation, OCR
Audio: transcription, voice agents, audio Q&A
PDFs/Documents: parsing, extraction, summarization
Mixed: multiple input types in one pipeline

Step 2: Read the Relevant Docs

Use the langwatch CLI to fetch the right pages:

langwatch scenario-docs                            # Index — locate multimodal pages
langwatch scenario-docs multimodal/audio-to-text   # Audio testing patterns
langwatch scenario-docs multimodal/multimodal-files # Generic file analysis patterns
langwatch docs                                     # LangWatch docs index
langwatch docs evaluations/experiments/sdk         # Experiment SDK basics
langwatch docs evaluations/evaluators/list         # Browse evaluator types

Evaluate Your Multimodal Agent

This recipe helps you evaluate agents that process images, audio, PDFs, or other non-text inputs.

Step 1: Identify Modalities

Read the codebase to understand what your agent processes:

Images: classification, analysis, generation, OCR
Audio: transcription, voice agents, audio Q&A
PDFs/Documents: parsing, extraction, summarization
Mixed: multiple input types in one pipeline

Step 2: Read the Relevant Docs

Use the langwatch CLI to fetch the right pages:

langwatch scenario-docs                            # Index — locate multimodal pages
langwatch scenario-docs multimodal/audio-to-text   # Audio testing patterns
langwatch scenario-docs multimodal/multimodal-files # Generic file analysis patterns
langwatch docs                                     # LangWatch docs index
langwatch docs evaluations/experiments/sdk         # Experiment SDK basics
langwatch docs evaluations/evaluators/list         # Browse evaluator types

Evaluate Multimodal

Evaluate Your Multimodal Agent

Step 1: Identify Modalities

Step 2: Read the Relevant Docs

Evaluate Multimodal

Evaluate Your Multimodal Agent

Step 1: Identify Modalities

Step 2: Read the Relevant Docs

Step 3: Set Up Evaluation by Modality

Image Evaluation

Audio Evaluation

PDF/Document Evaluation

File Analysis

Step 4: Generate Domain-Specific Test Data

Step 5: Run and Iterate

Common Mistakes

Songsee

Video Frames

Gifgrep

Qqbot Media

Camsnap

Openai Whisper Api