Name: Many Model Training
Author: Heath-Moose

Search skills.../

Many Model Training | Skills Pool

I'll help you train models per partition. Please confirm:

1. Training data table?
2. Partition column? (e.g., REGION, STORE_ID)
3. Target/label column?
4. Feature columns?
5. Model type? (XGBoost / LightGBM / sklearn / custom)
6. Stage for storing models?

from snowflake.ml.modeling.distributors.many_model import ManyModelTraining
from snowflake.ml.modeling.distributors.distributed_partition_function.entities import RunStatus

def train_model(data_connector, context):
    """
    Args:
        data_connector: Access partition data via .to_pandas()
        context: Partition info via context.partition_id
    Returns:
        Trained model (auto-serialized)
    """
    df = data_connector.to_pandas()
    print(f"Training for partition: {context.partition_id}")
    
    from xgboost import XGBRegressor
    model = XGBRegressor(n_estimators=100)
    model.fit(df[['feature1', 'feature2']], df['target'])
    return model  # Auto-serialized to stage

trainer = ManyModelTraining(train_model, "<STAGE_NAME>")

training_run = trainer.run(
    partition_by="<PARTITION_COLUMN>",
    snowpark_dataframe=session.table("<TABLE>"),
    run_id="<DESCRIPTIVE_RUN_ID>"
)

final_status = training_run.wait()
print(f"Training completed with status: {final_status}")

Training complete for [N] partitions.
Status: [SUCCESS/PARTIAL/FAILED]

Partition results:
- partition_1: SUCCESS
- partition_2: SUCCESS
...

Would you like to:
1. Retrieve models for use
2. Check failed partitions
3. Proceed to partitioned inference

if final_status == RunStatus.SUCCESS:
    # Get models by partition
    for partition_id in training_run.partition_details:
        model = training_run.get_model(partition_id)
        print(f"Retrieved model for {partition_id}")
    
    # Or collect all into dict
    models = {
        pid: training_run.get_model(pid) 
        for pid in training_run.partition_details
    }

from snowflake.ml.modeling.distributors.many_model import ManyModelRun

restored_run = ManyModelRun.restore_from("<RUN_ID>", "<STAGE_NAME>")
model = restored_run.get_model("<PARTITION_ID>")

from snowflake.ml.modeling.distributors.many_model import ManyModelInference

def predict_with_model(data_connector, model, context):
    """
    Args:
        data_connector: Access partition data via .to_pandas()
        model: Pre-loaded model (auto-loaded from training run)
        context: Partition info via context.partition_id
    Returns:
        Prediction results
    """
    df = data_connector.to_pandas()
    print(f"Running inference for partition: {context.partition_id}")
    
    # Model is already loaded - just use it
    predictions = model.predict(df[['feature1', 'feature2']])
    
    results = df.copy()
    results['predictions'] = predictions
    
    # Save results to stage
    context.upload_to_stage(results, "predictions.csv",
        write_function=lambda df, path: df.to_csv(path, index=False))
    
    return results

inference = ManyModelInference(
    predict_with_model,
    "<STAGE_NAME>",                    # Same stage as training
    training_run_id="<TRAINING_RUN_ID>"  # Run ID from Step 3
)

inference_run = inference.run(
    partition_by="<PARTITION_COLUMN>",  # Must match training
    snowpark_dataframe=session.table("<NEW_DATA_TABLE>"),
    run_id="<INFERENCE_RUN_ID>"
)

final_status = inference_run.wait()
print(f"Inference completed with status: {final_status}")

Inference complete for [N] partitions.
Status: [SUCCESS/PARTIAL/FAILED]

Results stored in stage: @<STAGE_NAME>/<INFERENCE_RUN_ID>/

Would you like to:
1. Download prediction results
2. Check failed partitions
3. Run another inference batch

def predict_to_table(data_connector, model, context):
    df = data_connector.to_pandas()
    predictions = model.predict(df[['feature1', 'feature2']])
    
    results = df.copy()
    results['predictions'] = predictions
    results['partition_id'] = context.partition_id
    
    # Write to Snowflake table (uses bounded session pool)
    context.with_session(lambda session:
        session.create_dataframe(results)
            .write.mode("append")
            .save_as_table("MY_PREDICTIONS_TABLE")
    )
    
    return {"rows_written": len(results)}

from snowflake.ml.modeling.distributors.many_model import (
    ManyModelInference, PickleSerde, TorchSerde, TensorFlowSerde
)

# Default (pickle) - XGBoost, sklearn, LightGBM
inference = ManyModelInference(predict_func, "stage", "train_run_v1")

# PyTorch models
inference = ManyModelInference(predict_func, "stage", "train_run_v1", serde=TorchSerde())

# TensorFlow models  
inference = ManyModelInference(predict_func, "stage", "train_run_v1", serde=TensorFlowSerde())

# Custom serde (must match training)
inference = ManyModelInference(predict_func, "stage", "train_run_v1", serde=CustomSerde())

from snowflake.ml.modeling.distributors.many_model import (
    ManyModelTraining, PickleSerde, TorchSerde, TensorFlowSerde, ModelSerde
)

# Default (pickle) - works for XGBoost, sklearn, LightGBM
trainer = ManyModelTraining(train_func, "stage")  # Uses PickleSerde()

# PyTorch models
trainer = ManyModelTraining(train_func, "stage", serde=TorchSerde())

# TensorFlow/Keras models
trainer = ManyModelTraining(train_func, "stage", serde=TensorFlowSerde())

# Custom serialization
class CustomSerde(ModelSerde):
    @property
    def filename(self) -> str:
        return "model.joblib"
    
    def write(self, model, file_path: str) -> None:
        import joblib
        joblib.dump(model, file_path)
    
    def read(self, file_path: str):
        import joblib
        return joblib.load(file_path)

trainer = ManyModelTraining(train_func, "stage", serde=CustomSerde())

def predict_func(data_connector, model, context):  # model is auto-loaded and passed as 2nd arg

Many Model Training

Many Model Training & Inference (MMT/MMI)

When to Load

Workflow

Step 1: Confirm Setup

Many Model Training

Many Model Training & Inference (MMT/MMI)

When to Load

Workflow

Step 1: Confirm Setup

Step 2: Define Training Function

Step 3: Run Training

Step 4: Access Trained Models

Step 5: Restore Previous Runs

Many Model Inference (MMI)

Step 6: Define Inference Function

Step 7: Run Inference

Writing Results to Snowflake Tables

Framework-Specific Deserialization

Stopping Points

Output

Framework-Specific Serialization

Resource Sizing

API Notes

Next Steps

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns