Name: Bio Machine Learning Model Validation
Author: mdbabumiamssm

Bio Machine Learning Model Validation

Implements nested cross-validation and stratified splits for unbiased model evaluation on biomedical datasets. Prevents data leakage and overfitting in biomarker discovery. Use when validating classifiers or optimizing hyperparameters on omics data.

mdbabumiamssm24 スター2026/02/04

職業
カテゴリ: 機械学習

Cross-Validation for Biomedical Data

Why Nested CV Matters

Simple train/test splits overestimate performance on small omics datasets. Nested CV provides unbiased estimates by separating hyperparameter tuning from performance evaluation.

Nested Cross-Validation

from sklearn.model_selection import cross_val_score, StratifiedKFold, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import numpy as np

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('clf', RandomForestClassifier(random_state=42))
])

param_grid = {
    'clf__n_estimators': [50, 100, 200],
    'clf__max_depth': [5, 10, None]
}

# Outer CV: performance estimation (5 folds)
# Inner CV: hyperparameter tuning (3 folds)
outer_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
inner_cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)

nested_scores = []
for train_idx, test_idx in outer_cv.split(X, y):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]

    grid = GridSearchCV(pipe, param_grid, cv=inner_cv, scoring='roc_auc', n_jobs=-1)
    grid.fit(X_train, y_train)
    score = grid.score(X_test, y_test)
    nested_scores.append(score)

print(f'Nested CV AUC: {np.mean(nested_scores):.3f} +/- {np.std(nested_scores):.3f}')

Bio Machine Learning Model Validation

mdbabumiamssm24 スター2026/02/04

職業
カテゴリ: 機械学習

Nested Cross-Validation

from sklearn.model_selection import cross_val_score, StratifiedKFold, GridSearchCV from sklearn.ensemble import RandomForestClassifier from sklearn.preprocessing import StandardScaler from sklearn.pipeline import Pipeline import numpy as np pipe = Pipeline([ ('scaler', StandardScaler()), ('clf', RandomForestClassifier(random_state=42)) ]) param_grid = { 'clf__n_estimators': [50, 100, 200], 'clf__max_depth': [5, 10, None] } # Outer CV: performance estimation (5 folds) # Inner CV: hyperparameter tuning (3 folds) outer_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) inner_cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42) nested_scores = [] for train_idx, test_idx in outer_cv.split(X, y): X_train, X_test = X.iloc[train_idx], X.iloc[test_idx] y_train, y_test = y[train_idx], y[test_idx] grid = GridSearchCV(pipe, param_grid, cv=inner_cv, scoring='roc_auc', n_jobs=-1) grid.fit(X_train, y_train) score = grid.score(X_test, y_test) nested_scores.append(score) print(f'Nested CV AUC: {np.mean(nested_scores):.3f} +/- {np.std(nested_scores):.3f}')

Dataset Size	Strategy	Notes
n > 100	StratifiedKFold(5)	Standard choice
n = 50-100	StratifiedKFold(10)	More train data per fold
n < 30	LeaveOneOut	Maximum train data
Repeated measures	GroupKFold	Keep patients together
High variance	RepeatedStratifiedKFold	More stable estimates

Bio Machine Learning Model Validation

Cross-Validation for Biomedical Data

Why Nested CV Matters

Nested Cross-Validation

Bio Machine Learning Model Validation

Cross-Validation for Biomedical Data

Why Nested CV Matters

Nested Cross-Validation

Stratified K-Fold

Repeated Stratified K-Fold

Leave-One-Out (Small Datasets)

Group-Aware Splits

CV Strategy Selection

Avoiding Data Leakage

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

Bio Machine Learning Model Validation

Cross-Validation for Biomedical Data

Why Nested CV Matters

Nested Cross-Validation

Bio Machine Learning Model Validation

Cross-Validation for Biomedical Data

Why Nested CV Matters

Nested Cross-Validation

Stratified K-Fold

Repeated Stratified K-Fold

Leave-One-Out (Small Datasets)

Group-Aware Splits

CV Strategy Selection

Avoiding Data Leakage

Related Skills

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns