SageMaker Patterns

AWS SageMaker best practices for training, evaluation, and model deployment.

When to Activate

Setting up ML training pipelines on AWS
Optimising training costs with Spot instances
Deploying models to SageMaker endpoints
Automating preprocessing → training → evaluation workflows
Registering and promoting models via Model Registry

Training Pipeline (SageMaker Pipelines SDK v2)

import sagemaker
from sagemaker.workflow.pipeline import Pipeline
from sagemaker.workflow.steps import ProcessingStep, TrainingStep
from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.estimator import Estimator
from sagemaker.workflow.parameters import ParameterString
from sagemaker.workflow.pipeline_context import PipelineSession

pipeline_session = PipelineSession()
role = "arn:aws:iam::123456789012:role/SageMakerExecutionRole"

role_param = ParameterString(name="Role", default_value=role)

# Step 1 — Preprocessing
processor = SKLearnProcessor(
    framework_version="1.2-1",
    instance_type="ml.m5.large",
    instance_count=1,
    role=role,
    sagemaker_session=pipeline_session,
)

step_preprocess = ProcessingStep(
    name="Preprocessing",
    processor=processor,
    inputs=[
        sagemaker.processing.ProcessingInput(
            source="s3://my-bucket/raw-data/",
            destination="/opt/ml/processing/input",
        )
    ],
    outputs=[
        sagemaker.processing.ProcessingOutput(
            output_name="train",
            source="/opt/ml/processing/output/train",
            destination="s3://my-bucket/processed/train/",
        ),
        sagemaker.processing.ProcessingOutput(
            output_name="validation",
            source="/opt/ml/processing/output/validation",
            destination="s3://my-bucket/processed/validation/",
        ),
    ],
    code="scripts/preprocess.py",
)

# Step 2 — Training (Spot instances for cost saving)
estimator = Estimator(
    image_uri="763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-training:2.1.0-gpu-py310",
    role=role,
    instance_count=1,
    instance_type="ml.g4dn.xlarge",
    use_spot_instances=True,           # ✅ up to 90% cost reduction
    max_run=3600,
    max_wait=7200,                     # must be >= max_run when spot=True
    output_path="s3://my-bucket/models/",
    checkpoint_s3_uri="s3://my-bucket/checkpoints/",  # resume on interruption
    sagemaker_session=pipeline_session,
)

step_train = TrainingStep(
    name="Training",
    estimator=estimator,
    inputs={
        "train": sagemaker.inputs.TrainingInput(
            s3_data=step_preprocess.properties.ProcessingOutputConfig.Outputs[
                "train"
            ].S3Output.S3Uri,
            content_type="text/csv",
        )
    },
)

# Step 3 — Evaluation
step_eval = ProcessingStep(
    name="Evaluation",
    processor=processor,
    code="scripts/evaluate.py",
    inputs=[
        sagemaker.processing.ProcessingInput(
            source=step_train.properties.ModelArtifacts.S3ModelArtifacts,
            destination="/opt/ml/processing/model",
        )
    ],
    outputs=[
        sagemaker.processing.ProcessingOutput(
            output_name="evaluation",
            source="/opt/ml/processing/output/evaluation",
            destination="s3://my-bucket/evaluation/",
        )
    ],
)

pipeline = Pipeline(
    name="MyMLPipeline",
    parameters=[role_param],
    steps=[step_preprocess, step_train, step_eval],
    sagemaker_session=pipeline_session,
)

pipeline.upsert(role_arn=role)
execution = pipeline.start(
    execution_display_name="run-2026-03",
    parameters={"Role": role},
)
execution.wait()

Training Pipeline (SageMaker Pipelines SDK v2)

import sagemaker from sagemaker.workflow.pipeline import Pipeline from sagemaker.workflow.steps import ProcessingStep, TrainingStep from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.estimator import Estimator from sagemaker.workflow.parameters import ParameterString from sagemaker.workflow.pipeline_context import PipelineSession pipeline_session = PipelineSession() role = "arn:aws:iam::123456789012:role/SageMakerExecutionRole" role_param = ParameterString(name="Role", default_value=role) # Step 1 — Preprocessing processor = SKLearnProcessor( framework_version="1.2-1", instance_type="ml.m5.large", instance_count=1, role=role, sagemaker_session=pipeline_session, ) step_preprocess = ProcessingStep( name="Preprocessing", processor=processor, inputs=[ sagemaker.processing.ProcessingInput( source="s3://my-bucket/raw-data/", destination="/opt/ml/processing/input", ) ], outputs=[ sagemaker.processing.ProcessingOutput( output_name="train", source="/opt/ml/processing/output/train", destination="s3://my-bucket/processed/train/", ), sagemaker.processing.ProcessingOutput( output_name="validation", source="/opt/ml/processing/output/validation", destination="s3://my-bucket/processed/validation/", ), ], code="scripts/preprocess.py", ) # Step 2 — Training (Spot instances for cost saving) estimator = Estimator( image_uri="763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-training:2.1.0-gpu-py310", role=role, instance_count=1, instance_type="ml.g4dn.xlarge", use_spot_instances=True, # ✅ up to 90% cost reduction max_run=3600, max_wait=7200, # must be >= max_run when spot=True output_path="s3://my-bucket/models/", checkpoint_s3_uri="s3://my-bucket/checkpoints/", # resume on interruption sagemaker_session=pipeline_session, ) step_train = TrainingStep( name="Training", estimator=estimator, inputs={ "train": sagemaker.inputs.TrainingInput( s3_data=step_preprocess.properties.ProcessingOutputConfig.Outputs[ "train" ].S3Output.S3Uri, content_type="text/csv", ) }, ) # Step 3 — Evaluation step_eval = ProcessingStep( name="Evaluation", processor=processor, code="scripts/evaluate.py", inputs=[ sagemaker.processing.ProcessingInput( source=step_train.properties.ModelArtifacts.S3ModelArtifacts, destination="/opt/ml/processing/model", ) ], outputs=[ sagemaker.processing.ProcessingOutput( output_name="evaluation", source="/opt/ml/processing/output/evaluation", destination="s3://my-bucket/evaluation/", ) ], ) pipeline = Pipeline( name="MyMLPipeline", parameters=[role_param], steps=[step_preprocess, step_train, step_eval], sagemaker_session=pipeline_session, ) pipeline.upsert(role_arn=role) execution = pipeline.start( execution_display_name="run-2026-03", parameters={"Role": role}, ) execution.wait()

Practice	Detail
✅ Spot instances	Up to 90% cheaper; always set `checkpoint_s3_uri` to resume
✅ IAM roles only	Never use access keys in training scripts
✅ S3 for all artifacts	Preprocessed data, models, eval reports — all in versioned S3
✅ Pipeline versioning	Tag every execution with git SHA
✅ Model approval gate	`PendingManualApproval` before promoting to prod endpoint
✅ Separate environments	`dev` / `staging` / `prod` SageMaker domains or AWS accounts
✅ Data capture	Enable on prod endpoints for drift detection

Anti-Pattern	Why Bad	Fix
❌ Local training in prod	Not reproducible, no audit trail	SageMaker Pipelines always
❌ Manual model upload	Error-prone, no versioning	Model Registry via `model.register()`
❌ Hardcoded IAM keys	Security risk	Instance role + Secrets Manager
❌ Monolithic pipeline step	Hard to debug, retry whole pipeline	Split preprocessing / training / evaluation
❌ No checkpointing with Spot	Interruption = lost progress	Set `checkpoint_s3_uri`
❌ No data capture	Silent model drift	Enable `DataCaptureConfig` on endpoints

Sagemaker

SageMaker Patterns

When to Activate

Training Pipeline (SageMaker Pipelines SDK v2)

Sagemaker

SageMaker Patterns

When to Activate

Training Pipeline (SageMaker Pipelines SDK v2)

IAM Role (Least Privilege)

Artifact Storage in S3

Model Registry

Promote to Production (CLI / Python)

SageMaker Endpoint Deployment

Best Practices

Anti-Patterns

Project Structure

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns