Name: Sagemaker Patterns
Author: Presmanes3

Sagemaker Patterns

Canonical implementation patterns for QueryForge's SageMaker integration. Use this skill whenever creating or modifying Training Jobs, Processing Steps, SageMaker Pipelines, or Model Registry operations in src/queryforge/pipeline/, src/queryforge/train/, src/queryforge/registry/, or scripts/.

Presmanes30 星标2026年3月9日

职业
分类: 框架内部

SageMaker Patterns Skill

Principles

All AWS resource identifiers (IAM roles, S3 buckets, image URIs) are read from config/pipeline.yaml via the Pydantic config schema. Never hardcode them.
Every SageMaker object is constructed from explicit, typed config values.
Re-running a pipeline with the same inputs must produce the same outputs (idempotent).

1. Training Job — HuggingFace Estimator

# src/queryforge/train/estimator.py
import sagemaker
from sagemaker.huggingface import HuggingFace
from shared.schemas.config import PipelineConfig

def build_estimator(config: PipelineConfig, hyperparameters: dict) -> HuggingFace:
    """Build a HuggingFace estimator for QLoRA fine-tuning.

    Args:
        config: Validated pipeline configuration loaded from config/pipeline.yaml.
        hyperparameters: JSON-serializable dict of training hyperparameters.

    Returns:
        Configured HuggingFace estimator ready for .fit() or Pipeline Step.
    """
    return HuggingFace(
        entry_point="train.py",
        source_dir="src/queryforge/train",
        role=config.execution_role_arn,
        instance_type=config.train_instance_type,
        instance_count=1,
        transformers_version="4.36",
        pytorch_version="2.1",
        py_version="py311",
        hyperparameters=hyperparameters,
        output_path=config.s3_model_output_uri,
        base_job_name="queryforge-train",
        tags=[{"Key": "project", "Value": "queryforge"}],
    )

Sagemaker Patterns

Presmanes30 星标2026年3月9日

职业
分类: 框架内部

Principles

All AWS resource identifiers (IAM roles, S3 buckets, image URIs) are read from config/pipeline.yaml via the Pydantic config schema. Never hardcode them.

Every SageMaker object is constructed from explicit, typed config values.

Re-running a pipeline with the same inputs must produce the same outputs (idempotent).

1. Training Job — HuggingFace Estimator

# src/queryforge/train/estimator.py import sagemaker from sagemaker.huggingface import HuggingFace from shared.schemas.config import PipelineConfig def build_estimator(config: PipelineConfig, hyperparameters: dict) -> HuggingFace: """Build a HuggingFace estimator for QLoRA fine-tuning. Args: config: Validated pipeline configuration loaded from config/pipeline.yaml. hyperparameters: JSON-serializable dict of training hyperparameters. Returns: Configured HuggingFace estimator ready for .fit() or Pipeline Step. """ return HuggingFace( entry_point="train.py", source_dir="src/queryforge/train", role=config.execution_role_arn, instance_type=config.train_instance_type, instance_count=1, transformers_version="4.36", pytorch_version="2.1", py_version="py311", hyperparameters=hyperparameters, output_path=config.s3_model_output_uri, base_job_name="queryforge-train", tags=[{"Key": "project", "Value": "queryforge"}], )

Parameter	Value
`source`	Full S3 URI constructed via `utils/s3.py`
`destination`	`/opt/ml/processing/<component>/input` or `output`
`s3_data_type`	`"S3Prefix"` for directories, `"S3Object"` for single files

Sagemaker Patterns

SageMaker Patterns Skill

Principles

1. Training Job — HuggingFace Estimator

Sagemaker Patterns

SageMaker Patterns Skill

Principles

1. Training Job — HuggingFace Estimator

Rules

2. Processing Step — ScriptProcessor

ProcessingInput / ProcessingOutput conventions

3. SageMaker Pipeline — Structure

Step ordering rules

4. ConditionStep — Model Registration Gate

5. Model Registry — Registration

Metadata requirements

Useful commands

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2