Name: Data Pipeline
Author: HemantSudarshan

스킬 검색.../

Data Pipeline | Skills Pool

Load data (auto-detect format):

import pandas as pd

# Auto-detect format
if filepath.endswith('.csv'):
    df = pd.read_csv(filepath, encoding='utf-8-sig')
elif filepath.endswith('.json'):
    df = pd.read_json(filepath)
elif filepath.endswith('.jsonl'):
    df = pd.read_json(filepath, lines=True)
elif filepath.endswith('.parquet'):
    df = pd.read_parquet(filepath)

Generate data profile:

profile = {
    "total_rows": len(df),
    "total_columns": len(df.columns),
    "column_types": df.dtypes.to_dict(),
    "missing_values": df.isnull().sum().to_dict(),
    "missing_percentage": (df.isnull().sum() / len(df) * 100).to_dict(),
    "duplicates": df.duplicated().sum(),
    "memory_usage_mb": df.memory_usage(deep=True).sum() / 1e6,
}

Generate data_quality_report.md with all findings.

import re
import unicodedata

def clean_text(text):
    """Standard NLP text cleaning pipeline."""
    if pd.isna(text):
        return ""
    text = unicodedata.normalize("NFKD", str(text))
    text = re.sub(r'<[^>]+>', '', text)          # Remove HTML
    text = re.sub(r'http\S+|www.\S+', '', text)  # Remove URLs
    text = re.sub(r'\s+', ' ', text).strip()      # Normalize whitespace
    return text

def clean_tabular(df):
    """Standard tabular data cleaning."""
    # Remove constant columns
    constant_cols = [c for c in df.columns if df[c].nunique() <= 1]
    df = df.drop(columns=constant_cols)
    
    # Handle missing values
    numeric_cols = df.select_dtypes(include='number').columns
    categorical_cols = df.select_dtypes(include='object').columns
    
    df[numeric_cols] = df[numeric_cols].fillna(df[numeric_cols].median())
    df[categorical_cols] = df[categorical_cols].fillna(df[categorical_cols].mode().iloc[0])
    
    # Remove duplicates
    df = df.drop_duplicates()
    
    return df

Scenario	Strategy	Code
< 5% missing	Drop rows	`df.dropna()`
5-30% missing, numeric	Impute with median	`fillna(median)`
5-30% missing, categorical	Impute with mode	`fillna(mode)`
> 30% missing	Drop column or flag	`df.drop(columns=[col])`
Missing is informative	Create indicator	`df[col+'_missing'] = df[col].isna()`

#	Check	Method	Auto
1	No null values in critical columns	`df[col].notnull().all()`	✅
2	No duplicate rows	`not df.duplicated().any()`	✅
3	Correct data types	`df.dtypes` matches schema	✅
4	Values within expected ranges	`df[col].between(min, max).all()`	✅
5	No unexpected categories	`df[col].isin(expected).all()`	✅
6	Text columns non-empty	`df[col].str.len() > 0`	✅
7	Dates are parseable	`pd.to_datetime(df[col])`	✅
8	No data leakage (train/test overlap)	Hash comparison	✅
9	Class balance within acceptable range	`value_counts(normalize=True)`	✅
10	Encoding is UTF-8	`chardet.detect()`	✅
11	File integrity (not truncated)	Row count matches expected	✅
12	Consistent formatting across columns	Regex validation	✅
13	No PII in public datasets	PII regex scan	✅
14	Labels are normalized	Case-insensitive dedup	✅
15	Numeric columns have no string values	`pd.to_numeric()` check	✅
16	Timestamps are in consistent timezone	TZ check	⚠️
17	Foreign keys are valid	Join validation	⚠️
18	Sample size meets minimum requirements	Count check	✅
19	Feature distributions are not degenerate	Variance check	✅
20	Data provenance documented	Metadata review	Manual

Task	Metric	Code
Classification	Accuracy	`sklearn.metrics.accuracy_score`
Classification	Precision/Recall/F1	`sklearn.metrics.classification_report`
Classification	AUC-ROC	`sklearn.metrics.roc_auc_score`
Classification	Confusion Matrix	`sklearn.metrics.confusion_matrix`
Regression	MSE / RMSE	`sklearn.metrics.mean_squared_error`
Regression	MAE	`sklearn.metrics.mean_absolute_error`
Regression	R²	`sklearn.metrics.r2_score`
Generation	BLEU	`evaluate.load("bleu")`
Generation	ROUGE	`evaluate.load("rouge")`
Generation	BERTScore	`evaluate.load("bertscore")`
Retrieval	Recall@K	Custom function
Retrieval	MRR	Custom function
Retrieval	nDCG	`sklearn.metrics.ndcg_score`

class ModelEvaluator:
    def __init__(self, model, tokenizer, metrics=None):
        self.model = model
        self.tokenizer = tokenizer
        self.metrics = metrics or ["accuracy", "f1"]
    
    def evaluate(self, test_dataset):
        predictions = []
        references = []
        
        for sample in test_dataset:
            pred = self.model.predict(sample["input"])
            predictions.append(pred)
            references.append(sample["label"])
        
        results = {}
        for metric_name in self.metrics:
            metric = evaluate.load(metric_name)
            results[metric_name] = metric.compute(
                predictions=predictions,
                references=references
            )
        
        return results
    
    def generate_report(self, results, output_path):
        # Generate markdown report with charts
        ...

from locust import HttpUser, task, between

class AIAPIUser(HttpUser):
    wait_time = between(0.5, 2)
    
    @task
    def predict(self):
        self.client.post("/predict", json={
            "text": "Sample input for prediction"
        })
    
    @task
    def health(self):
        self.client.get("/health")

Anti-Pattern	Consequence	Correct Approach
Skip data profiling, go straight to cleaning	Miss critical issues	Always profile first
Use accuracy on imbalanced datasets	Misleading results	Use F1, precision, recall
Include test data in training	Data leakage, invalid evaluation	Strict split before any processing
Impute all missing values with mean	Lost information, biased results	Choose strategy based on % missing and context
Load entire large dataset into memory	OOM crash	Use chunked processing or streaming
Test on the same data used for validation	Overfitting undetected	Hold out a separate test set

Data Pipeline

Data Preprocessing + Evaluation + Testing

Overview

Supporting References

Required Inputs

Data Pipeline

Data Preprocessing + Evaluation + Testing

Overview

Supporting References

Required Inputs

Step-by-Step Workflow

Phase 1 — Data Ingestion & Profiling

Phase 2 — Data Cleaning & Transformation

Phase 3 — Data Validation & Quality Checks

Phase 4 — Model Evaluation & Metrics

Phase 5 — Performance & Load Testing

Phase 6 — Report Generation

Anti-Patterns — DO NOT

Skill Coordination

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns