Name: Data Science Pro
Author: MGriot

Skills suchen.../

Data Science Pro | Skills Pool

1. FRAME      → Define the question before touching data
2. INSPECT    → Load, shape, dtypes, nulls, duplicates
3. CLEAN      → Handle missing values, outliers, types
4. EXPLORE    → EDA: distributions, correlations, PCA
5. MODEL      → Train on train split only; validate properly
6. VALIDATE   → Metrics, residuals, calibration
7. NARRATE    → Insight + context + "so what" + recommendation

# Preferred imports block (copy to every notebook/script)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score

# Reproducibility — always set seeds
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

# Display settings
pd.set_option('display.max_columns', 50)
pd.set_option('display.float_format', '{:.4f}'.format)
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('colorblind')   # always colorblind-safe

Domain	Library
Data wrangling	`pandas`, `polars` (for large data)
Numerics	`numpy`, `scipy`
ML	`scikit-learn`
Chemometrics	`chemotools`, `pyChemometrics`
Statistics	`statsmodels`, `pingouin`
Visualization	`matplotlib`, `seaborn`, `plotly`
Time series	`statsmodels`, `prophet`, `sktime`
Reporting	`jupyter`, `nbconvert`, `quarto`

Mistake	Consequence	Fix
Scale before split	Leaks test info → inflated metrics	Always split first
Too many PCA/PLS components	Overfitting	Use cross-validation for n_components
Truncated y-axis	Misleads audience	Start y-axis at 0 for bar charts
p-value only, no effect size	Statistically significant ≠ practically significant	Always report both
Presenting to wrong audience	Lost message, no action taken	Define audience in step 1
No seed set	Irreproducible results	`np.random.seed(42)` everywhere

Task	Module
First look at a new dataset	`modules/eda.md`
Spectral / chemical data, PCA, PLS	`modules/chemometrics.md`
t-test, ANOVA, normality, correlation	`modules/statistics.md`
Creating charts and figures	`modules/visualization.md`
Training, validating, tuning a model	`modules/ml-modeling.md`
Writing a report, slides, or narrative	`modules/storytelling.md`
Reproducible environments, Docker, notebooks

Task	Module
First look at a new dataset	`modules/eda.md`
Spectral / chemical data, PCA, PLS	`modules/chemometrics.md`
t-test, ANOVA, normality, correlation	`modules/statistics.md`
Creating charts and figures	`modules/visualization.md`
Training, validating, tuning a model	`modules/ml-modeling.md`
Writing a report, slides, or narrative	`modules/storytelling.md`
Reproducible environments, Docker, notebooks

Data Science Pro

Data Science Pro + Storyteller — Main Agent

Module Routing

Data Science Pro

Data Science Pro + Storyteller — Main Agent

Module Routing

Universal Workflow

Three Cardinal Rules

Code Quality Standards

Visualization Standards (Summary)

Statistical Hygiene (Summary)

Storytelling Summary (go to `modules/storytelling.md` for full detail)

Recommended Libraries

Common Mistakes to Avoid

Data Analyst

Project Planner

Brenda Database

Clinical Decision Support Documents

Visualization Expert

Deep Research

Data Science Pro

Data Science Pro + Storyteller — Main Agent

Module Routing

Data Science Pro

Data Science Pro + Storyteller — Main Agent

Module Routing

Universal Workflow

Three Cardinal Rules

Code Quality Standards

Visualization Standards (Summary)

Statistical Hygiene (Summary)

Storytelling Summary (go to modules/storytelling.md for full detail)

Recommended Libraries

Common Mistakes to Avoid

Data Analyst

Project Planner

Brenda Database

Clinical Decision Support Documents

Visualization Expert

Deep Research

Storytelling Summary (go to `modules/storytelling.md` for full detail)