1. Framework Selection

Choose the right framework based on your needs:

Need	Framework	Why
Research & prototyping	PyTorch	Dynamic graphs, pythonic, easy debugging
Production at scale	TensorFlow	Mature ecosystem, TF Serving, TFLite
High performance	JAX	JIT compilation, functional programming
Traditional ML	scikit-learn	Simple API, comprehensive algorithms
Quick start	Keras	High-level, beginner-friendly
Mobile/Edge

Dataset size < 10k rows?
├─ Yes → Traditional ML (scikit-learn)
└─ No → Consider deep learning

Tabular data?
├─ Yes → XGBoost, LightGBM, CatBoost
└─ No (images, text, audio) → Deep learning

Need interpretability?
├─ Yes → Decision trees, linear models
└─ No → Deep learning acceptable

Computational resources limited?
├─ Yes → Traditional ML or small neural networks
└─ No → Large deep learning models

Data Type	Task	Recommended Architecture
Images	Classification	ResNet, EffNet, ViT
	Object Detection	YOLOv8 (speed), Faster R-CNN (accuracy)
	Segmentation	U-Net, Mask R-CNN
Text	Classification	BERT, RoBERTa
	Generation	GPT, T5, BART
	Translation	T5, MarianMT
Sequences	Time Series	LSTM, Temporal CNN, Transformer
	Speech	Wav2Vec 2.0, Whisper
Tabular	Classification/Regression	XGBoost, LightGBM, Neural Networks

Method	When to Use
Grid Search	Small search space (< 10 combinations)
Random Search	Medium space (< 100 combinations)
Bayesian Optimization	Expensive training, continuous parameters
Population-based	Very large models, parallel resources

Action Space	Sample Efficiency	Algorithm
Discrete	Low priority	DQN, Rainbow
Discrete	High priority	SAC (discrete version)
Continuous	Low priority	PPO
Continuous	High priority	SAC, TD3
Need stability	-	PPO (most stable)

Task	Primary Metrics	When to Use Others
Binary Classification	F1, AUC-ROC	Precision (false positives matter), Recall (false negatives matter)
Multi-class	Macro F1, Accuracy	Per-class F1 (imbalanced), Confusion matrix (error analysis)
Regression	MSE, MAE	R² (goodness of fit), MAPE (percentage error)
Object Detection	mAP	IoU thresholds, per-class AP
RL	Cumulative reward	Episode length, success rate

Data size < 1000 samples?
├─ Yes → K-fold cross-validation (k=5 or 10)
└─ No → Single train/val/test split

Time series data?
├─ Yes → Time-based splits (no shuffle!)
└─ No → Random or stratified split

Imbalanced classes?
├─ Yes → Stratified split
└─ No → Random split

Where will model run?
├─ Cloud → API serving (TF Serving, TorchServe)
├─ Edge/Mobile → Model compression + TFLite/ONNX
├─ Browser → TensorFlow.js
└─ Batch → Scheduled jobs

Latency requirements?
├─ Real-time (< 100ms) → Optimize model, use caching
├─ Interactive (< 1s) → Standard serving
└─ Batch (minutes/hours) → Batch processing

Scale?
├─ High traffic → Kubernetes + auto-scaling
├─ Medium → Cloud Run, Lambda
└─ Low → Simple API server

Problem	Solution
Overfitting	Regularization (dropout, L2), more data, simpler model
Underfitting	Larger model, more features, less regularization
Slow training	Larger batch size, better optimizer (Adam), learning rate tuning
Unstable training	Lower learning rate, gradient clipping, batch normalization
Poor generalization	Data augmentation, cross-validation, domain adaptation
Class imbalance	Class weights, resampling, proper metrics (F1, not accuracy)

Ai Engineering | Skills Pool

Ai Engineering

Ai Engineering

1. Framework Selection

2. ML vs DL Decision

3. Architecture Selection

4. Training Workflow

Standard Training Pipeline

Hyperparameter Tuning Strategy

5. Reinforcement Learning

RL vs Supervised Learning

Algorithm Selection

6. Model Evaluation

Metrics by Task Type

Validation Strategy

7. Deployment Decision Tree

Model Optimization

8. Common Decision Points

Transfer Learning vs Train from Scratch

Data Augmentation

9. Quick Start Checklist

10. Common Pitfalls

References

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns