Name: Databricks Synthetic Data Generation
Author: databricks-solutions

Databricks Synthetic Data Generation | Skills Pool

When	Guide
User mentions ML model training or complex time patterns	references/1-data-patterns.md — ML-ready data, time multipliers, row coherence
Errors during generation	references/2-troubleshooting.md — Fixing common issues

📍 Output Location: catalog_name.schema_name
   Volume: /Volumes/catalog_name/schema_name/raw_data/

📍 Output Location: {user_catalog}.support_demo
   Volume: /Volumes/{user_catalog}/support_demo/raw_data/

📖 Story: A payment system outage causes support ticket spike. Resolution times
   degrade, enterprise customers churn, revenue drops $2.3M. With Databricks we
   identify the root cause, affected customers, and prevent future impact.

Table	Description	Rows	Key Assumptions
customers	Customer profiles with tier, MRR	10,000	Enterprise 10% but 60% of revenue
tickets	Support tickets with priority, resolution_time	80,000	Spike during outage, SLA breaches
incidents	System events (outages, deployments)	50	Payment outage mid-month
churn_events	Customer cancellations with reason	500	Spike after poor support experience

from databricks.connect import DatabricksSession, DatabricksEnv
from pyspark.sql import functions as F
from pyspark.sql.types import StringType
import pandas as pd

# Setup serverless with dependencies (MUST list all libs used in UDFs)
env = DatabricksEnv().withDependencies("faker", "holidays")
spark = DatabricksSession.builder.withEnvironment(env).serverless(True).getOrCreate()

# Pandas UDF pattern - import lib INSIDE the function
@F.pandas_udf(StringType())
def fake_name(ids: pd.Series) -> pd.Series:
    from faker import Faker  # Import inside UDF
    fake = Faker()
    return pd.Series([fake.name() for _ in range(len(ids))])

# Generate with spark.range, apply UDFs
customers_df = spark.range(0, 10000, numPartitions=16).select(
    F.concat(F.lit("CUST-"), F.lpad(F.col("id").cast("string"), 5, "0")).alias("customer_id"),
    fake_name(F.col("id")).alias("name"),
)

# Write to Volume as Parquet (default for raw data)
# Path is a folder with table name: /Volumes/catalog/schema/raw_data/customers/
spark.sql(f"CREATE SCHEMA IF NOT EXISTS {CATALOG}.{SCHEMA}")
spark.sql(f"CREATE VOLUME IF NOT EXISTS {CATALOG}.{SCHEMA}.raw_data")
customers_df.write.mode("overwrite").parquet(f"/Volumes/{CATALOG}/{SCHEMA}/raw_data/customers")

Anti-Pattern	Why It's Slow	Do This Instead
Python loops on driver	Single-threaded, no parallelism	Use `spark.range()` + Spark operations
`.collect()` then iterate	Brings all data to driver memory	Keep data in Spark, use DataFrame ops
Pandas → Spark → Pandas	Serialization overhead, defeats distribution	Stay in Spark, use `pandas_udf` only for UDFs
Read/write temp files	Unnecessary I/O	Chain DataFrame transformations
Scalar UDFs	Row-by-row processing	Use `pandas_udf` for batch processing

F.when(F.rand() < 0.6, "Free").when(F.rand() < 0.9, "Pro").otherwise("Enterprise")

END_DATE = datetime.now()
START_DATE = END_DATE - timedelta(days=180)

spark.sql(f"CREATE SCHEMA IF NOT EXISTS {CATALOG}.{SCHEMA}")
spark.sql(f"CREATE VOLUME IF NOT EXISTS {CATALOG}.{SCHEMA}.raw_data")

# 1. Write master table
customers_df.write.mode("overwrite").saveAsTable(f"{CATALOG}.{SCHEMA}.customers")

# 2. Read back for FK lookup
customer_lookup = spark.table(f"{CATALOG}.{SCHEMA}.customers").select("customer_idx", "customer_id")

# 3. Generate child table with valid FKs via join
orders_df = spark.range(N_ORDERS).select(
    (F.abs(F.hash(F.col("id"))) % N_CUSTOMERS).alias("customer_idx")
)
orders_with_fk = orders_df.join(customer_lookup, on="customer_idx")

uv pip install "databricks-connect>=16.4,<17.4" faker numpy pandas holidays

Issue	Solution
`ImportError: cannot import name 'DatabricksEnv'`	Upgrade: `uv pip install "databricks-connect>=16.4"`
Python 3.11 instead of 3.12	Python 3.12 required. Use `uv` to create env with correct version
`ModuleNotFoundError: faker`	Add to `withDependencies()`, import inside UDF
Faker UDF is slow	Use `pandas_udf` for batch processing
Out of memory	Increase `numPartitions` in `spark.range()`
Referential integrity errors	Write master table to Delta first, read back for FK joins
`PERSIST TABLE is not supported on serverless`	NEVER use `.cache()` or `.persist()` with serverless - write to Delta table first, then read back
`F.window` vs `Window` confusion	Use `from pyspark.sql.window import Window` for `row_number()`, `rank()`, etc. `F.window` is for streaming only.
Broadcast variables not supported	NEVER use `spark.sparkContext.broadcast()` with serverless

Databricks Synthetic Data Generation

Databricks Synthetic Data Generation

Data Must Tell a Business Story

Databricks Synthetic Data Generation

Databricks Synthetic Data Generation

Data Must Tell a Business Story

References

Critical Rules

Generation Planning Workflow

⚠️ MUST DO: Confirm Catalog Before Proceeding

Step 1: Gather Requirements

Step 2: Present Plan with Story

Step 3: Ask About Data Features

Pre-Generation Checklist

Post-Generation Checklist

Use Databricks Connect Spark + Faker Pattern

Performance Rules

Common Patterns

Weighted Categories (never uniform)

Log-Normal Amounts (in a pandas UDF)

Date Range (Last 6 Months)

Infrastructure (always create in script)

Referential Integrity (FK pattern)

Setup

Common Issues

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns

Databricks Synthetic Data Generation

Databricks Synthetic Data Generation

Data Must Tell a Business Story

Databricks Synthetic Data Generation

Databricks Synthetic Data Generation

Data Must Tell a Business Story

References

Critical Rules

Generation Planning Workflow

⚠️ MUST DO: Confirm Catalog Before Proceeding

Step 1: Gather Requirements

Step 2: Present Plan with Story

Step 3: Ask About Data Features

Pre-Generation Checklist

Post-Generation Checklist

Use Databricks Connect Spark + Faker Pattern

Performance Rules

Common Patterns

Weighted Categories (never uniform)

Log-Normal Amounts (in a pandas UDF)

Date Range (Last 6 Months)

Infrastructure (always create in script)

Referential Integrity (FK pattern)

Setup

Related Skills

Common Issues

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns