Name: Data Pipeline Architecture
Author: karvifi

SKILL: Data Pipeline Architecture

ETL Patterns

Pattern 1: Batch ETL

from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime

# Extract
def extract_data(**context):
    """Pull data from source"""
    conn = psycopg2.connect("source_db")
    data = pd.read_sql("SELECT * FROM orders WHERE date >= %s", 
                       conn, 
                       params=[context['execution_date']])
    data.to_parquet('/tmp/extracted_data.parquet')

# Transform
def transform_data(**context):
    """Clean and transform"""
    data = pd.read_parquet('/tmp/extracted_data.parquet')
    
    # Clean
    data = data.dropna()
    data['total'] = data['quantity'] * data['price']
    
    # Aggregate
    summary = data.groupby('product_id').agg({
        'total': 'sum',
        'quantity': 'sum'
    })
    
    summary.to_parquet('/tmp/transformed_data.parquet')

# Load
def load_data(**context):
    """Load to warehouse"""
    data = pd.read_parquet('/tmp/transformed_data.parquet')
    data.to_sql('sales_summary', warehouse_conn, if_exists='append')

# DAG
dag = DAG('daily_etl', schedule_interval='@daily')

extract = PythonOperator(task_id='extract', python_callable=extract_data, dag=dag)
transform = PythonOperator(task_id='transform', python_callable=transform_data, dag=dag)
load = PythonOperator(task_id='load', python_callable=load_data, dag=dag)

extract >> transform >> load

SKILL: Data Pipeline Architecture

ETL Patterns

Pattern 1: Batch ETL

from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime

# Extract
def extract_data(**context):
    """Pull data from source"""
    conn = psycopg2.connect("source_db")
    data = pd.read_sql("SELECT * FROM orders WHERE date >= %s", 
                       conn, 
                       params=[context['execution_date']])
    data.to_parquet('/tmp/extracted_data.parquet')

# Transform
def transform_data(**context):
    """Clean and transform"""
    data = pd.read_parquet('/tmp/extracted_data.parquet')
    
    # Clean
    data = data.dropna()
    data['total'] = data['quantity'] * data['price']
    
    # Aggregate
    summary = data.groupby('product_id').agg({
        'total': 'sum',
        'quantity': 'sum'
    })
    
    summary.to_parquet('/tmp/transformed_data.parquet')

# Load
def load_data(**context):
    """Load to warehouse"""
    data = pd.read_parquet('/tmp/transformed_data.parquet')
    data.to_sql('sales_summary', warehouse_conn, if_exists='append')

# DAG
dag = DAG('daily_etl', schedule_interval='@daily')

extract = PythonOperator(task_id='extract', python_callable=extract_data, dag=dag)
transform = PythonOperator(task_id='transform', python_callable=transform_data, dag=dag)
load = PythonOperator(task_id='load', python_callable=load_data, dag=dag)

extract >> transform >> load

Data Pipeline Architecture

SKILL: Data Pipeline Architecture

ETL Patterns

Pattern 1: Batch ETL

Data Pipeline Architecture

SKILL: Data Pipeline Architecture

ETL Patterns

Pattern 1: Batch ETL

Pattern 2: Incremental Loading

Pattern 3: Data Quality Checks

Pattern 4: Data Lineage

Pattern 5: Backfill Pattern

Quality Checks

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns