스킬 파일

LQF Machine Learning Expert Guide

Name: LQF Machine Learning Expert Guide
Author: foryourhealth111-pixel

LQF Machine Learning Expert Guide - Routed skill for ML/Statistical Modeling with Critical Discussion Mode. Triggers on: machine learning, modeling, prediction, training, classification, regression, clustering, deep learning, neural network, model evaluation, feature engineering, hyperparameter tuning, overfitting, underfitting, baseline, ablation study, critique my approach, review my model, is this a good idea, should I use, what's wrong with, evaluate my solution, challenge my assumptions, discuss my approach Engages in critical discussion with minimum 3 rounds of iterative refinement. Challenges both user proposals and own suggestions with fact-based critique. Demands evidence and baselines before accepting solutions.

foryourhealth111-pixel1,590 스타2026. 4. 18.

직업
카테고리: 머신러닝

스킬 내용

When to Use This Skill

Use this skill when:

Building ML models (classification, regression, clustering, forecasting)
Evaluating model performance and debugging issues
Feature engineering and data preprocessing for ML
Hyperparameter tuning and model optimization
Debugging overfitting, underfitting, or poor generalization
Choosing between traditional ML and deep learning approaches
Establishing baselines and conducting ablation studies
Performing error analysis and model validation
Statistical modeling with predictive components

Not For / Boundaries

Out of Scope:

Pure data visualization without modeling (use data visualization skills)
Database queries without predictive modeling
Basic descriptive statistics without ML context
Production deployment infrastructure (use MLOps/deployment skills)
Reinforcement learning (specialized domain)
Time series forecasting with specialized methods (use time series skills)

LQF Machine Learning Expert Guide

foryourhealth111-pixel1,590 스타2026. 4. 18.

직업
카테고리: 머신러닝

스킬 내용

When to Use This Skill

Use this skill when:

Building ML models (classification, regression, clustering, forecasting)
Evaluating model performance and debugging issues
Feature engineering and data preprocessing for ML
Hyperparameter tuning and model optimization
Debugging overfitting, underfitting, or poor generalization
Choosing between traditional ML and deep learning approaches
Establishing baselines and conducting ablation studies
Performing error analysis and model validation
Statistical modeling with predictive components

Not For / Boundaries

Out of Scope:

Pure data visualization without modeling (use data visualization skills)
Database queries without predictive modeling
Basic descriptive statistics without ML context
Production deployment infrastructure (use MLOps/deployment skills)
Reinforcement learning (specialized domain)
Time series forecasting with specialized methods (use time series skills)

관련 스킬

1. Can this be solved without ML? (rules, heuristics, simple logic)
2. What is the dummy baseline? (mean for regression, mode for classification)
3. What is the business-logic baseline? (yesterday's value, domain rules)
4. Only proceed with ML if: Lift = (Model - Baseline) / Baseline is significant

# Expert Problem Definition Checklist
# 1. Mathematical formulation
#    - Classification: P(y|X) where y ∈ {0,1,...,K}
#    - Regression: E[y|X] where y ∈ ℝ
#    - Clustering: Find partition that minimizes intra-cluster variance
#
# 2. Success metrics beyond accuracy
#    - Business impact: revenue, cost savings, user satisfaction
#    - Fairness: performance across demographic groups
#    - Robustness: performance on edge cases
#
# 3. Negative consequences
#    - Optimizing CTR → clickbait
#    - Optimizing engagement → filter bubbles

from sklearn.dummy import DummyClassifier, DummyRegressor
from sklearn.metrics import accuracy_score, mean_squared_error
import numpy as np

# STEP 1: Dummy Baseline (statistical guess)
# Classification: predict most frequent class
dummy_clf = DummyClassifier(strategy='most_frequent')
dummy_clf.fit(X_train, y_train)
dummy_acc = accuracy_score(y_test, dummy_clf.predict(X_test))
print(f"Dummy Baseline Accuracy: {dummy_acc:.3f}")

# Regression: predict mean
dummy_reg = DummyRegressor(strategy='mean')
dummy_reg.fit(X_train, y_train)
dummy_mse = mean_squared_error(y_test, dummy_reg.predict(X_test))
print(f"Dummy Baseline MSE: {dummy_mse:.3f}")

# STEP 2: Simple Heuristic Baseline (domain knowledge)
# Example for time series: "tomorrow = today"
heuristic_pred = y_test.shift(1).fillna(y_test.mean())
heuristic_mse = mean_squared_error(y_test, heuristic_pred)
print(f"Heuristic Baseline MSE: {heuristic_mse:.3f}")

# STEP 3: Calculate Lift
# Your complex model MUST beat these baselines significantly
# If lift < 10%, question whether complexity is justified

# Check missing value patterns (informative vs random)
import pandas as pd

# Are missing values informative?
df['income_missing'] = df['income'].isna().astype(int)
# If income_missing correlates with target, it's informative!

# Check for data leakage (temporal)
# WRONG: Random split when data has time component
# RIGHT: Time-based split
train_data = df[df['date'] < '2023-01-01']
test_data = df[df['date'] >= '2023-01-01']

# Feature engineering: causality over correlation
# NOVICE: Add all possible features
# EXPERT: Add features with causal relationship
df['price_per_sqft'] = df['price'] / df['sqft']  # Causal: price depends on size
# Avoid: df['random_correlation'] = df['feature1'] * df['feature2']  # No causal story

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

# STEP 1: Simple model (interpretable baseline)
simple_model = LogisticRegression()
simple_model.fit(X_train, y_train)
simple_auc = roc_auc_score(y_test, simple_model.predict_proba(X_test)[:, 1])

# STEP 2: Complex model
complex_model = RandomForestClassifier(n_estimators=100)
complex_model.fit(X_train, y_train)
complex_auc = roc_auc_score(y_test, complex_model.predict_proba(X_test)[:, 1])

# STEP 3: Justify complexity
improvement = (complex_auc - simple_auc) / simple_auc * 100
print(f"Improvement: {improvement:.1f}%")
# If improvement < 5%, use simple model (interpretability wins)

# Remove components one by one to prove they're needed
# Example: Testing if attention mechanism helps

# Full model
full_model_score = 0.85

# Remove attention
no_attention_score = 0.84  # Only 0.01 drop

# Conclusion: Attention adds complexity without benefit → REMOVE IT
# Only keep components where removal causes significant (>2%) drop

# Take 10 samples, turn off regularization
# Model MUST achieve 100% training accuracy
# If it can't, you have a bug (not a model problem)

tiny_X = X_train[:10]
tiny_y = y_train[:10]

model = RandomForestClassifier(max_depth=None, min_samples_split=2)
model.fit(tiny_X, tiny_y)
train_acc = accuracy_score(tiny_y, model.predict(tiny_X))

assert train_acc == 1.0, "Bug in code! Model can't overfit 10 samples"

# Don't celebrate 95% accuracy, analyze 5% errors
y_pred = model.predict(X_test)
errors = X_test[y_pred != y_test]

# Manually inspect errors
print("Error cases:")
print(errors.head(20))

# Look for patterns:
# - Mislabeled data?
# - Missing features for these cases?
# - Systematic bias?

# Test with adversarial inputs
# - Missing values
# - Extreme values
# - Out-of-distribution data

# Example: What if all features are at max?
stress_test = X_test.copy()
stress_test[:] = X_test.max()
stress_pred = model.predict(stress_test)
# Does output make sense?

# Novice: Jump straight to complex model
from sklearn.ensemble import GradientBoostingClassifier
model = GradientBoostingClassifier(n_estimators=1000, max_depth=10)
model.fit(X_train, y_train)
print(f"Accuracy: {model.score(X_test, y_test)}")  # 0.87
# "Great! 87% accuracy!"

# Expert: Establish baseline first
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier

# Step 1: Dummy baseline
dummy = DummyClassifier(strategy='most_frequent')
dummy.fit(X_train, y_train)
dummy_acc = dummy.score(X_test, y_test)
print(f"Dummy Baseline: {dummy_acc:.3f}")  # 0.82

# Step 2: Simple model
simple = LogisticRegression()
simple.fit(X_train, y_train)
simple_acc = simple.score(X_test, y_test)
print(f"Simple Model: {simple_acc:.3f}")  # 0.85

# Step 3: Complex model
complex = GradientBoostingClassifier(n_estimators=100, max_depth=3)
complex.fit(X_train, y_train)
complex_acc = complex.score(X_test, y_test)
print(f"Complex Model: {complex_acc:.3f}")  # 0.87

# Analysis: 87% vs 82% dummy = only 6% lift
# 87% vs 85% simple = only 2.4% improvement
# Conclusion: Use simple logistic regression (interpretable, 85% is good enough)

# This is classic overfitting. Let's diagnose systematically.

# Step 1: Check train-val gap
train_acc = 0.99
val_acc = 0.70
gap = train_acc - val_acc  # 0.29 - HUGE gap!

# Step 2: Regularization ladder (in order)
# Level 1: Batch Normalization (if deep learning)
# Level 2: Data Augmentation (most effective)
# Level 3: Dropout
# Level 4: L2 regularization

# For traditional ML (e.g., Random Forest):
from sklearn.ensemble import RandomForestClassifier

# Reduce complexity
model = RandomForestClassifier(
    max_depth=5,           # Limit tree depth
    min_samples_split=20,  # Require more samples to split
    min_samples_leaf=10,   # Require more samples in leaves
    max_features='sqrt'    # Limit features per tree
)
model.fit(X_train, y_train)

# Step 3: Check if gap closes
new_train_acc = model.score(X_train, y_train)  # Should drop from 99%
new_val_acc = model.score(X_val, y_val)        # Should increase from 70%

print(f"New train: {new_train_acc:.3f}, New val: {new_val_acc:.3f}")
# Goal: Gap < 0.05 (5%)

# Novice: Create all possible feature combinations
for col1 in df.columns:
    for col2 in df.columns:
        df[f'{col1}_times_{col2}'] = df[col1] * df[col2]
        df[f'{col1}_div_{col2}'] = df[col1] / (df[col2] + 1e-10)
# Result: 10,000 features, most are noise

# Expert: Create features with causal story
import pandas as pd

# Domain: House price prediction
# Causal reasoning: Price depends on size AND location

# Good: Price per square foot (causal relationship)
df['price_per_sqft'] = df['price'] / df['sqft']

# Good: Age of house (older = more depreciation)
df['house_age'] = 2024 - df['year_built']

# Good: Interaction with causal meaning
df['luxury_indicator'] = (df['price_per_sqft'] > df['price_per_sqft'].quantile(0.9)).astype(int)

# Bad: Random multiplication (no causal story)
# df['random_feature'] = df['bedrooms'] * df['bathrooms']  # Why multiply these?

# Validate: Check feature importance
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
model.fit(df[['price_per_sqft', 'house_age', 'luxury_indicator']], df['price'])
importances = model.feature_importances_
# If importance < 0.01, remove feature

LQF Machine Learning Expert Guide

When to Use This Skill

Not For / Boundaries

LQF Machine Learning Expert Guide

When to Use This Skill

Not For / Boundaries

Critical Discussion Protocol

Core Principles

Critique Intensity Levels

Mandatory Information Checklist (HIGH-RISK Decisions)

Iterative Refinement Cycle

Self-Critique Framework

Question Your Own Suggestions

Devil's Advocate Mode

Assumption Audit Template

Self-Critique Dialogue Example

User Proposal Critique Framework

Step 1: Identify Unstated Assumptions

Step 2: Find Potential Failure Modes

Step 3: Compare Against Simpler Alternatives

Step 4: Request Missing Information

Step 5: Challenge Complexity Without Justification

Example Critique Dialogues

Quick Reference

Expert Thinking Framework

Phase 1: Problem Definition (Expert Approach)

Phase 2: Baseline Thinking (ALWAYS DO THIS FIRST)

Phase 3: Data Engineering (Expert Patterns)

Phase 4: Modeling (Occam's Razor + Ablation)

Phase 5: Validation (Adversarial Thinking)

Examples

Example 1: Building a Classification Model (Novice vs Expert)

Example 2: Debugging Overfitting (Expert Workflow)

Example 3: Feature Engineering (Causal vs Correlational)

Example 4: Critical Discussion - User Proposes Deep Learning

Example 5: Critical Discussion - "Model Not Working"

Example 6: Iterative Refinement - Feature Engineering

References

Maintenance

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns