Purpose

This skill encodes expert methodological knowledge for dimensionality reduction and latent-variable analysis of neural population recordings. A competent programmer without computational neuroscience training will get this wrong because:

Not all dimensionality reduction is the same. PCA, Factor Analysis, GPFA, and dPCA answer fundamentally different questions about neural data. PCA finds axes of maximum variance; dPCA demixes variance by task parameter; GPFA extracts smooth single-trial trajectories. Choosing the wrong method answers the wrong question (Cunningham & Yu, 2014).
Standard data science preprocessing destroys neural signal. Naive z-scoring or standard scaling of neural firing rates removes important information about rate differences across neurons. Soft normalization is required (Churchland et al., 2012).
Visualization methods are not analysis methods. t-SNE and UMAP produce visually compelling low-dimensional embeddings but their distances are not interpretable, axes are not meaningful, and results are sensitive to hyperparameters. They must never be used for quantitative inference (Cunningham & Yu, 2014).
Dimensionality is not determined by "percent variance explained." There is no universal threshold (e.g., 90%) for choosing the number of PCs. Parallel analysis or cross-validation is required to determine true dimensionality (Humphries, 2021).

Purpose

Not all dimensionality reduction is the same. PCA, Factor Analysis, GPFA, and dPCA answer fundamentally different questions about neural data. PCA finds axes of maximum variance; dPCA demixes variance by task parameter; GPFA extracts smooth single-trial trajectories. Choosing the wrong method answers the wrong question (Cunningham & Yu, 2014).

Standard data science preprocessing destroys neural signal. Naive z-scoring or standard scaling of neural firing rates removes important information about rate differences across neurons. Soft normalization is required (Churchland et al., 2012).

Visualization methods are not analysis methods. t-SNE and UMAP produce visually compelling low-dimensional embeddings but their distances are not interpretable, axes are not meaningful, and results are sensitive to hyperparameters. They must never be used for quantitative inference (Cunningham & Yu, 2014).

Dimensionality is not determined by "percent variance explained." There is no universal threshold (e.g., 90%) for choosing the number of PCs. Parallel analysis or cross-validation is required to determine true dimensionality (Humphries, 2021).

Method	Description	When to Use	Source
Parallel analysis	Compare eigenvalues to those from shuffled data	Recommended default; principled threshold	Humphries, 2021
Cross-validated PCA	Hold out neurons or time bins; test reconstruction	Avoids overfitting; gold standard	Cunningham & Yu, 2014
Scree plot elbow	Subjective visual inspection	Quick but unreliable; avoid for publication	Expert consensus
Percent variance threshold	e.g., "keep PCs explaining 90%"	NOT recommended; arbitrary threshold	Humphries, 2021

Parameter	Recommended Value	Rationale	Source
Bin size	20--50 ms	Smaller bins preserve temporal resolution but increase noise; 20 ms is standard for motor cortex	Yu et al., 2009
Latent dimensions	Cross-validate	Fit models with 2--15 dimensions; select by leave-one-neuron-out cross-validation log-likelihood	Yu et al., 2009
GP timescale (tau)	Learned from data	Each latent dimension has its own timescale; inspect for biologically plausible values (10--500 ms)	Yu et al., 2009

Classifier	When to Use	Source
Linear SVM	Default; robust for high-dimensional population data	Cunningham & Yu, 2014
LDA	When number of neurons << number of trials	Cunningham & Yu, 2014
Logistic Regression	When probability estimates are needed	Cunningham & Yu, 2014

Strategy	When to Use	Source
Leave-one-trial-out	Small trial counts; maximizes training data	Cunningham & Yu, 2014
Stratified k-fold (k=5--10)	Sufficient trials; balances bias/variance	Cunningham & Yu, 2014

Neural Population Analysis Guide

Purpose

Neural Population Analysis Guide

Purpose

When to Use This Skill

Research Planning Protocol

⚠️ Verification Notice

When to Use Population Analysis vs. Single-Neuron Analysis

Method Selection Decision Tree

PCA for Neural Data

Preprocessing Before PCA

Determining Dimensionality

Cross-Validated PCA

GPFA -- Gaussian Process Factor Analysis

When to Use GPFA

Key Parameters

Data Requirements

dPCA -- Demixed Principal Component Analysis

When to Use dPCA

Key Procedures

Data Requirements

Population Decoding

Classifier Selection for Neural Populations

Cross-Validation for Neural Data

Temporal Generalization Matrix

Common Pitfalls

1. Using Standard Z-Scoring Instead of Soft Normalization

2. Interpreting t-SNE/UMAP Distances as Meaningful

3. Using Percent Variance Explained to Choose Dimensionality

4. Applying GPFA to Condition-Averaged Data

5. Ignoring Neuron Count Requirements

6. Not Cross-Validating dPCA Regularization

Minimum Reporting Checklist

Key References

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy