Statistical Analysis Skill

Cuándo usar esta skill

Analizar un dataset para extraer insights estadísticos
Probar si una diferencia entre grupos es estadísticamente significativa
Encontrar correlaciones entre variables
Crear un modelo predictivo simple
Validar si los datos siguen una distribución esperada

Setup

pip install pandas numpy scipy statsmodels scikit-learn matplotlib seaborn

Estadística descriptiva

import pandas as pd
import numpy as np
from scipy import stats

def describe_dataset(df: pd.DataFrame) -> dict:
    """Análisis descriptivo completo de un dataset"""
    
    numerical = df.select_dtypes(include=np.number)
    categorical = df.select_dtypes(include=['object', 'category'])
    
    report = {
        "shape": df.shape,
        "missing_values": df.isnull().sum().to_dict(),
        "missing_pct": (df.isnull().sum() / len(df) * 100).round(2).to_dict(),
        "duplicates": df.duplicated().sum(),
    }
    
    if not numerical.empty:
        stats_df = numerical.describe()
        # Añadir métricas adicionales
        stats_df.loc['skewness'] = numerical.skew()
        stats_df.loc['kurtosis'] = numerical.kurtosis()
        report["numerical_stats"] = stats_df.to_dict()
    
    if not categorical.empty:
        report["categorical_info"] = {
            col: {
                "unique": df[col].nunique(),
                "top5": df[col].value_counts().head(5).to_dict()
            }
            for col in categorical.columns
        }
    
    return report

Estadística descriptiva

import pandas as pd import numpy as np from scipy import stats def describe_dataset(df: pd.DataFrame) -> dict: """Análisis descriptivo completo de un dataset""" numerical = df.select_dtypes(include=np.number) categorical = df.select_dtypes(include=['object', 'category']) report = { "shape": df.shape, "missing_values": df.isnull().sum().to_dict(), "missing_pct": (df.isnull().sum() / len(df) * 100).round(2).to_dict(), "duplicates": df.duplicated().sum(), } if not numerical.empty: stats_df = numerical.describe() # Añadir métricas adicionales stats_df.loc['skewness'] = numerical.skew() stats_df.loc['kurtosis'] = numerical.kurtosis() report["numerical_stats"] = stats_df.to_dict() if not categorical.empty: report["categorical_info"] = { col: { "unique": df[col].nunique(), "top5": df[col].value_counts().head(5).to_dict() } for col in categorical.columns } return report

from scipy import stats def compare_two_groups(group_a: list, group_b: list, alpha: float = 0.05) -> dict: """ Comparar la media de dos grupos independientes H0: no hay diferencia entre los grupos H1: hay diferencia significativa """ # Verificar normalidad (Shapiro-Wilk) _, p_norm_a = stats.shapiro(group_a) if len(group_a) <= 5000 else (None, 0) _, p_norm_b = stats.shapiro(group_b) if len(group_b) <= 5000 else (None, 0) is_normal = p_norm_a > 0.05 and p_norm_b > 0.05 if is_normal: # Test de Levene para igualdad de varianzas _, p_equal_var = stats.levene(group_a, group_b) equal_var = p_equal_var > 0.05 # Student's t-test (equal_var=True) o Welch's t-test (equal_var=False) stat, p_value = stats.ttest_ind(group_a, group_b, equal_var=equal_var) test_name = "Student's t-test" if equal_var else "Welch's t-test" else: # Mann-Whitney U (no paramétrico) stat, p_value = stats.mannwhitneyu(group_a, group_b, alternative='two-sided') test_name = "Mann-Whitney U" # Effect size (Cohen's d) pooled_std = np.sqrt((np.std(group_a)**2 + np.std(group_b)**2) / 2) cohens_d = (np.mean(group_a) - np.mean(group_b)) / pooled_std if pooled_std != 0 else 0 effect_magnitude = ( "negligible" if abs(cohens_d) < 0.2 else "small" if abs(cohens_d) < 0.5 else "medium" if abs(cohens_d) < 0.8 else "large" ) return { "test": test_name, "statistic": round(stat, 4), "p_value": round(p_value, 6), "significant": p_value < alpha, "conclusion": ( f"Hay una diferencia estadísticamente significativa (p={p_value:.4f} < α={alpha})" if p_value < alpha else f"No hay evidencia de diferencia significativa (p={p_value:.4f} > α={alpha})" ), "effect_size": {"cohens_d": round(cohens_d, 3), "magnitude": effect_magnitude}, "descriptives": { "group_a": {"mean": round(np.mean(group_a), 2), "std": round(np.std(group_a), 2), "n": len(group_a)}, "group_b": {"mean": round(np.mean(group_b), 2), "std": round(np.std(group_b), 2), "n": len(group_b)}, } }

Statistical Analysis