Name: Distributed Partition Function
Author: Heath-Moose

스킬 검색.../

Distributed Partition Function | Skills Pool

I'll help you set up distributed processing with DPF. Which mode?

1. **SQL Mode** - Partition by column values in a DataFrame
2. **Stage Mode** - Process files from a stage

Also confirm:
- What processing do you need per partition?
- What outputs should be saved?
- Output stage name?

def my_function(data_connector, context):
    """
    Args:
        data_connector: Access partition data via .to_pandas(), .to_torch_dataset(), etc.
        context: Partition utilities
            - context.partition_id: Current partition identifier
            - context.upload_to_stage(obj, filename): Save artifacts
            - context.download_from_stage(filename): Load artifacts
            - context.with_session(func): Execute with Snowflake session
    """
    df = data_connector.to_pandas()
    
    # Process data
    results = {"count": len(df), "partition": context.partition_id}
    
    # Save outputs
    context.upload_to_stage(results, "results.pkl")

from snowflake.ml.modeling.distributors.distributed_partition_function.dpf import DPF
from snowflake.ml.modeling.distributors.distributed_partition_function.entities import (
    ExecutionOptions, RunStatus
)

dpf = DPF(func=process_partition, stage_name="<OUTPUT_STAGE>")

dpf_run = dpf.run(
    partition_by="<PARTITION_COLUMN>",
    snowpark_dataframe=session.table("<TABLE>"),
    run_id="<DESCRIPTIVE_RUN_ID>",
    execution_options=ExecutionOptions(num_cpus_per_worker=1),
)

status = dpf_run.wait()

dpf = DPF(func=process_file, stage_name="<OUTPUT_STAGE>")

dpf_run = dpf.run_from_stage(
    stage_location="@db.schema.input_stage/",
    run_id="<RUN_ID>",
    file_pattern="*.parquet",
)

status = dpf_run.wait()

DPF run complete.
Status: [SUCCESS/PARTIAL/FAILED]
Partitions processed: [N]

Would you like to:
1. Query results from stage
2. Check failed partitions
3. Run another processing job

# Check progress
dpf_run.get_progress()  # {"DONE": [...], "FAILED": [...]}

# Partition details
dpf_run.partition_details  # Dict[str, SinglePartitionDetails]

# Restore completed run later
from snowflake.ml.modeling.distributors.distributed_partition_function.dpf_run import DPFRun
restored = DPFRun.restore_from("<RUN_ID>", "<STAGE_NAME>")

session.sql("CREATE FILE FORMAT IF NOT EXISTS parquet_format TYPE = 'PARQUET'").collect()

results_df = session.sql(f"""
    SELECT 
        $1:PARTITION_KEY::STRING AS PARTITION_KEY,
        $1:VALUE::INTEGER AS VALUE
    FROM @<STAGE>/<RUN_ID>/ 
    (FILE_FORMAT => parquet_format, PATTERN => '.*\\.parquet')
""")

from snowflake.ml.modeling.distributors.distributed_partition_function.entities import ExecutionOptions

ExecutionOptions(
    use_head_node=True,          # Head node participates in execution (default True)
    loading_wh=None,             # Warehouse for data loading (see below)
    num_cpus_per_worker=None,    # CPUs per worker (None = auto)
    num_gpus_per_worker=None,    # GPUs per worker (None = auto)
    max_retries=1,               # Retry failed partitions
    fail_fast=False,             # Stop on first failure
)

ALTER STAGE <STAGE_NAME> REFRESH;

SELECT RELATIVE_PATH, SIZE FROM DIRECTORY(@<STAGE_NAME>)
WHERE RELATIVE_PATH LIKE '%<run_id>%'
ORDER BY RELATIVE_PATH;

def train_ensemble(data_connector, context):
    df = data_connector.to_pandas()
    X, y = df[["f1", "f2"]], df["target"]
    
    from xgboost import XGBRegressor
    from sklearn.ensemble import RandomForestRegressor
    
    models = {
        "xgboost": XGBRegressor().fit(X, y),
        "rf": RandomForestRegressor().fit(X, y),
    }
    
    for name, model in models.items():
        context.upload_to_stage(model, f"{name}.pkl")

def score_partition(data_connector, context):
    df = data_connector.to_pandas()
    
    from xgboost import XGBClassifier
    model = XGBClassifier().fit(df[["f1", "f2"]], df["target"])
    
    predictions = model.predict(df[["f1", "f2"]])
    results_df = df.assign(prediction=predictions, partition=context.partition_id)
    
    # Write to Snowflake table
    context.with_session(lambda session:
        session.create_dataframe(results_df)
            .write.mode("append")
            .save_as_table("PREDICTIONS")
    )

def process_partition(data_connector, context):
    import pyarrow as pa
    import pyarrow.parquet as pq
    
    df = data_connector.to_pandas()
    results = [{"PARTITION_KEY": context.partition_id, "VALUE": 123}]
    
    context.upload_to_stage(
        results,
        "results.parquet",
        write_function=lambda data, path: pq.write_table(
            pa.Table.from_pylist(data), path
        ),
    )

from snowflake.ml.modeling.distributors.distributed_partition_function.dpf import DPF

dpf = DPF(func, stage_name)

dpf_run = dpf.run(
    partition_by: str,
    snowpark_dataframe: snowpark.DataFrame,
    run_id: str,
    on_existing_artifacts: Literal["error", "overwrite"] = "error",
    execution_options: Optional[ExecutionOptions] = None,
) -> DPFRun

dpf_run = dpf.run_from_stage(
    stage_location: str,
    run_id: str,
    file_pattern: str = "*.parquet",
    partition_ids: Optional[List[str]] = None,
    on_existing_artifacts: Literal["error", "overwrite"] = "error",
    execution_options: Optional[ExecutionOptions] = None,
) -> DPFRun

stage_location: Input stage path (e.g., "@my_db.my_schema.my_stage/data/"). Each matching file becomes a partition.
file_pattern: Glob to filter files (default "*.parquet").
partition_ids: Optional list of specific file paths (relative to stage_location) to process. When provided, file_pattern is ignored. Useful for rerunning failed partitions:
```
failed = [p for p, d in run.partition_details.items() if d.status == "FAILED"]
dpf.run_from_stage(..., partition_ids=failed)
```

Distributed Partition Function

Distributed Partition Function (DPF)

⚠️ CRITICAL: Server-Side Execution Only

When to Load

Distributed Partition Function

Distributed Partition Function (DPF)

⚠️ CRITICAL: Server-Side Execution Only

When to Load

Workflow

Step 1: Clarify Use Case

Step 2: Define Processing Function

Step 3: Configure and Run

Step 4: Retrieve Results

Stopping Points

Output

ExecutionOptions Reference

Resource Sizing

Monitoring DPF Jobs

Common Patterns

Multiple Models per Partition

Results Only (No Model Persistence)

Write Parquet to Stage

API Reference

DPF

DPF.run()

DPF.run_from_stage()

Next Steps

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns