Name: Dd Llmobs Experiments
Author: nuttea

搜索技能.../

Dd Llmobs Experiments | Skills Pool

us3.datadoghq.com

import os
from dotenv import load_dotenv
load_dotenv(override=True)

from ddtrace.llmobs import LLMObs, EvaluatorResult

LLMObs.enable(
    api_key=os.getenv("DD_API_KEY"),
    app_key=os.getenv("DD_APPLICATION_KEY"),
    site="us3.datadoghq.com",
    project_name="vote-extraction-project",
    ml_app="vote-extraction-app",
)

dataset = LLMObs.create_dataset(
    dataset_name="capitals-of-the-world",
    description="inputs and outputs describing capitals of the world",
    records=[
        {
            "input_data": {"question": "What is the capital of China?"},
            "expected_output": "Beijing",
            "metadata": {"difficulty": "easy"},
        },
        {
            "input_data": {"question": "Which city serves as the capital of South Africa?"},
            "expected_output": "Pretoria",
            "metadata": {"difficulty": "medium"},
        },
    ],
)

dataset.url          # view in Datadog UI
dataset.as_dataframe()  # view as pandas DataFrame

dataset = LLMObs.pull_dataset(dataset_name="capitals-of-the-world")

dataset.append({"input_data": {"question": "Capital of Canada?"}, "expected_output": "Ottawa"})
dataset.update(0, {"input_data": {"question": "Updated?"}, "expected_output": "Updated"})
dataset.delete(1)
dataset.push()  # sync changes to Datadog

dataset = LLMObs.create_dataset_from_csv(
    csv_path="./data/taskmaster.csv",
    dataset_name="taskmaster-mini",
    input_data_columns=["prompt", "topics"],
    expected_output_columns=["labels"],
)

from typing import Dict, Any

def generate_capital(input_data: Dict[str, Any], config: Dict[str, Any]) -> str:
    response = llm_client.generate(
        model=config["model"],
        prompt=input_data["question"],
        temperature=config["temperature"],
    )
    return response.text

def classify_topic(input_data: Dict[str, Any], config: Dict[str, Any]) -> dict:
    # ... LLM call ...
    return {"response": "True", "confidence": 0.95}

sample = dataset[0]["input_data"]
output = generate_capital(sample, {"model": "gemini-2.5-flash", "temperature": 0})
print(output)

def exact_match(input_data, output_data, expected_output):
    return expected_output == output_data

def contains_answer(input_data, output_data, expected_output):
    return expected_output in output_data

from ddtrace.llmobs import EvaluatorResult

def contains_answer(input_data, output_data, expected_output):
    found = expected_output in output_data
    string_index = output_data.find(expected_output)
    reasoning = f"found at index {string_index}" if found else "not found"
    return EvaluatorResult(
        value=found,
        reasoning=reasoning,
        assessment="pass" if found else "fail",
        tags={"task": "contains_answer"},
    )

def num_exact_matches(inputs, outputs, expected_outputs, evaluators_results):
    return evaluators_results["exact_match"].count(True)

experiment = LLMObs.experiment(
    name="generate-capital-with-config",
    dataset=dataset,
    task=generate_capital,
    evaluators=[exact_match, contains_answer],
    summary_evaluators=[num_exact_matches],     # optional
    config={"model": "gemini-2.5-flash", "temperature": 0},
    description="basic experiment with config",
)

results = experiment.run(jobs=5)  # parallel execution
print(experiment.url)             # view results in Datadog

results = experiment.run()                    # sequential
results = experiment.run(jobs=5)              # 5 parallel workers
results = experiment.run(sample_size=10)      # subset only
results = experiment.run(raise_errors=True)   # stop on first error (useful for debugging)

def generate_capital(input_data: Dict[str, Any], config: Dict[str, Any]) -> str:
    response = llm_call(model=config["model"], prompt=input_data["question"], temperature=config["temperature"])
    return response.text

experiment = LLMObs.experiment(
    name="capital-naive-prompt",
    dataset=dataset, task=generate_capital,
    evaluators=[exact_match, contains_answer],
    config={"model": "gemini-2.5-flash", "temperature": 0},
)
experiment.run(jobs=5)

def generate_capital_one_word(input_data: Dict[str, Any], config: Dict[str, Any]) -> str:
    response = llm_call(
        model=config["model"],
        messages=[
            {"role": "system", "content": "Respond only with the capital name, nothing else."},
            {"role": "user", "content": "What is the capital of France?"},
            {"role": "assistant", "content": "Paris"},
            {"role": "user", "content": input_data["question"]},
        ],
        temperature=config["temperature"],
    )
    return response.text

experiment = LLMObs.experiment(
    name="capital-one-word-prompt",
    dataset=dataset, task=generate_capital_one_word,
    evaluators=[exact_match, contains_answer],
    summary_evaluators=[num_exact_matches],
    config={"model": "gemini-2.5-flash", "temperature": 0},
)
experiment.run(jobs=5)

import os
from dotenv import load_dotenv
load_dotenv(override=True)

from typing import Dict, Any
from ddtrace.llmobs import LLMObs, EvaluatorResult

# 1. Initialize
LLMObs.enable(
    api_key=os.getenv("DD_API_KEY"),
    app_key=os.getenv("DD_APPLICATION_KEY"),
    site="us3.datadoghq.com",
    project_name="vote-extraction-project",
    ml_app="vote-extraction-app",
)

# 2. Pull or create dataset
dataset = LLMObs.pull_dataset(dataset_name="my-dataset")

# 3. Define task
def my_task(input_data: Dict[str, Any], config: Dict[str, Any]) -> str:
    # Your LLM call here
    return llm_response

# 4. Define evaluators
def exact_match(input_data, output_data, expected_output):
    return expected_output == output_data

def contains_answer(input_data, output_data, expected_output):
    found = expected_output in str(output_data)
    return EvaluatorResult(
        value=found,
        reasoning="found" if found else "not found",
        assessment="pass" if found else "fail",
    )

def num_exact_matches(inputs, outputs, expected_outputs, evaluators_results):
    return evaluators_results["exact_match"].count(True)

# 5. Create and run experiment
experiment = LLMObs.experiment(
    name="my-experiment",
    dataset=dataset,
    task=my_task,
    evaluators=[exact_match, contains_answer],
    summary_evaluators=[num_exact_matches],
    config={"model": "gemini-2.5-flash", "temperature": 0},
    description="experiment description",
)

results = experiment.run(jobs=5)
print(experiment.url)

Search type	Syntax
Evaluation (bool)	`@evaluation.external.exact_match.value:true`
Evaluation (score)	`@evaluation.external.overlap.value:>=0.5`
Evaluation (categorical)	`@evaluation.external.quality.value:excellent`
Duration	`@duration:>=5s`
Token count	`@trace.total_tokens:>10000`
Input field	`@meta.input.question:"capital of France"`
Output field	`@meta.output.answer:"Paris"`
Metadata	`@meta.metadata.difficulty:hard`

Dd Llmobs Experiments

Datadog LLMObs Experiments

Prerequisites

Dd Llmobs Experiments

Datadog LLMObs Experiments

Prerequisites

Quick Start

Step 1: Create a Dataset

Pull an existing dataset

Modify records locally, then push

Create from CSV

Step 2: Define a Task

Tip: Test on a single sample first

Step 3: Define Evaluators

Simple evaluators (return bool, float, or str)

Rich evaluators (return EvaluatorResult)

Summary evaluators (aggregate across entire dataset)

Step 4: Create and Run Experiment

Run options

Iterating: Refine the Task, Reuse Evaluators

Full End-to-End Example

Analyzing Results

Project-Specific Notes

References

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns