Name: Data Validate
Author: dathere

Data Validate | Skills Pool

cardinality: true, stats_jsonl: true

mcp__qsv__qsv_sniff

Pitfall	How to Detect with qsv	Red Flag
Join explosion	`mcp__qsv__qsv_count` before and after join	Row count increased after join
Survivorship bias	`mcp__qsv__qsv_frequency` on status/lifecycle columns	Missing churned/deleted/failed entities
Incomplete period	`mcp__qsv__qsv_sqlp` to check date ranges	Partial periods compared to full periods
Denominator shifting	`mcp__qsv__qsv_sqlp` to verify denominator consistency	Definition changed between periods
Average of averages	`mcp__qsv__qsv_sqlp` to recalculate from raw data	Pre-aggregated averages with unequal group sizes
Selection bias	`mcp__qsv__qsv_frequency` on segment definitions	Segments defined by the outcome being measured

Metric Type	Sanity Check via qsv
Counts	`mcp__qsv__qsv_count` — does it match known figures?
Sums/averages	`mcp__qsv__qsv_stats` — are min/max/mean in plausible range?
Rates	`mcp__qsv__qsv_sqlp` — are values between 0% and 100%?
Distributions	`mcp__qsv__qsv_frequency` — do segment percentages sum to ~100%?
Growth rates	`mcp__qsv__qsv_sqlp` — is 50%+ MoM growth realistic?
Outliers	`mcp__qsv__qsv_moarstats` — `outliers_percentage`, `kurtosis`

## Validation Report

### Overall Assessment: [Ready to share | Share with caveats | Needs revision]

### Data Quality Summary
- File: [format, rows, columns, encoding]
- Completeness: [null rates, gaps found]
- Uniqueness: [duplicates found, cardinality issues]
- Validity: [type mismatches, schema violations]
- Accuracy: [outliers, implausible ranges]

### Methodology Review
[Findings about approach, data selection, definitions]

### Issues Found
1. [Severity: High/Medium/Low] [Issue description and impact]
2. ...

### Calculation Spot-Checks
- [Metric]: [Verified / Discrepancy found]
- ...

### Visualization Review
[Any issues with charts or visual presentation]

### Suggested Improvements
1. [Improvement and why it matters]
2. ...

### Required Caveats for Stakeholders
- [Caveat that must be communicated]
- ...

Data Validate

Usage

Steps

1. Data Quality Validation

Data Validate

Usage

Steps

1. Data Quality Validation

2. Review Methodology and Assumptions

3. Check for Common Analytical Pitfalls

4. Verify Calculations and Aggregations

Magnitude Checks

Red Flags That Warrant Investigation

5. Assess Visualizations (if present)

6. Evaluate Narrative and Conclusions

7. Suggest Improvements

8. Generate Confidence Assessment

Pre-Delivery QA Checklist

Data Quality Checks

Calculation Checks

Reasonableness Checks

Presentation Checks

Common Analytical Pitfalls (Reference)

Join Explosion

Survivorship Bias

Incomplete Period Comparison

Denominator Shifting

Average of Averages

Simpson's Paradox

Report Format

Notes

Visualization Expert

Data Analyst

Huggingface Hub

Multi Reviewer Patterns

Dbt Transformation Patterns

Startup Financial Modeling