Name: Data Validation
Author: ai4data

搵技能.../

Data Validation | Skills Pool

SELECT COUNT(*) as cnt FROM {catalog}.{bronze_schema}.{table_name}

-- WRONG: ROW_COUNT doesn't exist in Databricks information_schema
SELECT TABLE_NAME, ROW_COUNT FROM information_schema.tables  -- FAILS!

-- WRONG: source_metadata doesn't exist
SELECT * FROM source_metadata.tables  -- FAILS!

-- WRONG: Trying to get row counts from metadata
SELECT * FROM {catalog}.information_schema.tables WHERE ...  -- No ROW_COUNT column!

-- CORRECT: Direct COUNT query on each table
SELECT COUNT(*) as cnt FROM {catalog}.{schema}.{table}

Read config:

config = read_file("/memories/input/config/migration_config.json")

Extract values:

catalog = config.target.catalog.name
bronze_schema = config.target.catalog.schemas.bronze
tables = config.migration.bronze_tables

For each table, run validation query:

for table in tables:
    query = f"SELECT COUNT(*) as cnt FROM {catalog}.{bronze_schema}.{table.target_table}"
    result = run_sql(query)
    actual = result[0]["cnt"]
    expected = table.expected_row_count
    status = "PASS" if actual == expected else "FAIL"

Generate report with results

Read config:

config = read_file("/memories/input/config/migration_config.json")

Extract values:

catalog = config.target.catalog.name
gold_schema = config.target.catalog.schemas.gold
transformations = config.migration.transformation_waves.wave1.transformations

For each transformation, run validation query:

for t in transformations:
    query = f"SELECT COUNT(*) as cnt FROM {catalog}.{gold_schema}.{t.name}"
    result = run_sql(query)
    actual = result[0]["cnt"]
    expected = t.expected_row_count
    status = "PASS" if actual == expected else "FAIL"

SELECT COUNT(*) as cnt FROM {catalog}.{schema}.{table}

SELECT COUNT(*) as null_count
FROM {catalog}.{schema}.{table}
WHERE {primary_key} IS NULL

SELECT {primary_key}, COUNT(*) as dup_count
FROM {catalog}.{schema}.{table}
GROUP BY {primary_key}
HAVING COUNT(*) > 1

SELECT '{table1}' as table_name, {expected1} as expected, COUNT(*) as actual FROM {catalog}.{schema}.{table1}
UNION ALL SELECT '{table2}', {expected2}, COUNT(*) FROM {catalog}.{schema}.{table2}
UNION ALL SELECT '{table3}', {expected3}, COUNT(*) FROM {catalog}.{schema}.{table3}
-- ... continue for all tables from config

{
  "validation": {
    "data_quality_rules": [
      {"table": "orders_fact", "rule": "unit_price > 0", "description": "Unit price must be positive"},
      {"table": "orders_fact", "rule": "quantity > 0", "description": "Quantity must be positive"}
    ]
  }
}

-- Check rule violations
SELECT COUNT(*) as violations
FROM {catalog}.{gold_schema}.{table}
WHERE NOT ({rule})

# Validation Report - {wave_name}

## Configuration
- **Catalog:** {from config.target.catalog.name}
- **Schema:** {from config.target.catalog.schemas.*}
- **Tables Validated:** {count}

## Summary
- **Status:** PASSED / FAILED
- **Tables Passed:** X/Y

## Row Count Validation

| Table | Expected | Actual | Status |
|-------|----------|--------|--------|
| {table1} | {expected} | {actual} | PASS/FAIL |
| {table2} | {expected} | {actual} | PASS/FAIL |

## Data Quality Checks

| Rule | Table | Violations | Status |
|------|-------|------------|--------|
| {rule_description} | {table} | {count} | PASS/FAIL |

## Verdict
**{APPROVED / REJECTED}**
- Reason: {if rejected}

# 1. Read config
config = read_file("/memories/input/config/migration_config.json")

# 2. Extract values from config
catalog = "northwind_migration"           # from config.target.catalog.name
bronze_schema = "northwnd_bronze"         # from config.target.catalog.schemas.bronze
bronze_tables = [                         # from config.migration.bronze_tables
    {"target_table": "customers", "expected_row_count": 91},
    {"target_table": "employees", "expected_row_count": 9},
    ...
]

# 3. Validate each table
run_sql("SELECT COUNT(*) as cnt FROM northwind_migration.northwnd_bronze.customers")
# Returns: [{"cnt": "91"}]
# Expected: 91, Actual: 91 → PASS

run_sql("SELECT COUNT(*) as cnt FROM northwind_migration.northwnd_bronze.employees")
# Returns: [{"cnt": "9"}]
# Expected: 9, Actual: 9 → PASS

# ... repeat for all tables

# 4. Generate report
# All tables passed → Wave 0 APPROVED

Data Validation

Data Validation Skill

CRITICAL: Config-Driven Validation

Step 1: Read Config First (MANDATORY)

Data Validation

Data Validation Skill

CRITICAL: Config-Driven Validation

Step 1: Read Config First (MANDATORY)

Step 2: Build Dynamic Queries

CRITICAL: Databricks Query Patterns

When to Use

Validation Workflow

Bronze Layer Validation (Wave 0)

Gold Layer Validation (Wave 1+)

Validation Query Templates

Row Count Validation

Null Key Check

Duplicate Key Check

Batch Validation (All Tables at Once)

Data Quality Rules (from Config)

Validation Report Format

Example: Complete Validation Session

Key Principles

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns