Name: Version Compatibility
Author: GBakalkinOAI

Version Compatibility | Skills Pool

proDA::test_diff()

log2_data = np.log2(intensities.replace(0, np.nan))

log2_matrix <- log2(intensity_matrix)
log2_matrix[!is.finite(log2_matrix)] <- NA

sample_medians = log2_data.median(axis=0)
global_median = sample_medians.median()
normalized = log2_data - sample_medians + global_median

normalized <- normalizeBetweenArrays(log2_matrix, method = 'scale')

Method	When to use	R function
Median centering	Default for most analyses; robust to missing values	Manual or `normalizeBetweenArrays(method='scale')`
Cyclic loess	Unbalanced DE (more up- than down-regulated)	`normalizeBetweenArrays(method='cyclicloess')`
VSN	Heteroscedastic data; operates on raw intensities (skip log2)	`vsn::justvsn(raw_matrix)`
Quantile	TMT with complete data; avoid with many missing values	`normalizeBetweenArrays(method='quantile')`

Scenario	Recommended	Rationale
Small n (3-5 per group), protein-level data	limma	Borrows variance across proteins via empirical Bayes; adds ~10-20 effective df
PSM/peptide count metadata available	DEqMS	Weights variance by quantification depth per protein
Label-free with many missing values (>20%)	proDA	Models abundance-dependent dropout; no imputation needed
Large n (>10 per group), Python-only environment	Welch's t-test + BH	Variance estimates reliable at larger sample sizes
Complex designs (nested, multiple comparisons)	MSstats	Feature-level mixed models; handles technical replicates

library(limma)

design <- model.matrix(~0 + condition, data = sample_info)
colnames(design) <- levels(factor(sample_info$condition))

fit <- lmFit(protein_matrix, design)
contrast_matrix <- makeContrasts(Treatment - Control, levels = design)
fit2 <- contrasts.fit(fit, contrast_matrix)
fit2 <- eBayes(fit2, trend = TRUE, robust = TRUE)

results <- topTable(fit2, coef = 1, number = Inf, adjust.method = 'BH')

design <- model.matrix(~0 + condition + batch, data = sample_info)

library(DEqMS)

# Standard limma pipeline through eBayes (see above), then:
fit2$count <- psm_count_per_protein[rownames(fit2$coefficients)]
fit3 <- spectraCounteBayes(fit2)

results <- outputResult(fit3, coef_col = 1)

library(proDA)

fit <- proDA(protein_matrix, design = ~condition, col_data = sample_info,
             reference_level = 'Control')
results <- test_diff(fit, conditionTreatment - conditionControl)

import numpy as np
import pandas as pd
from scipy import stats
from statsmodels.stats.multitest import multipletests

def preprocess(intensities):
    log2_data = np.log2(intensities.replace(0, np.nan))
    sample_medians = log2_data.median(axis=0)
    global_median = sample_medians.median()
    return log2_data - sample_medians + global_median

def differential_abundance(normalized, case_cols, ctrl_cols):
    results = []
    for protein in normalized.index:
        case = normalized.loc[protein, case_cols].dropna()
        ctrl = normalized.loc[protein, ctrl_cols].dropna()
        if len(case) >= 2 and len(ctrl) >= 2:
            log2fc = case.mean() - ctrl.mean()
            _, pval = stats.ttest_ind(case, ctrl, equal_var=False)
            results.append({'protein': protein, 'log2fc': log2fc, 'pvalue': pval})

    df = pd.DataFrame(results)
    df['padj'] = multipletests(df['pvalue'], method='fdr_bh')[1]
    return df

library(ashr)

se <- sqrt(fit2$s2.post) * fit2$stdev.unscaled[, 1]
shrunk <- ash(fit2$coefficients[, 1], se, mixcompdist = 'normal')

shrunken_fc <- shrunk$result$PosteriorMean
lfsr <- shrunk$result$lfsr

fit2 <- treat(fit2, lfc = log2(1.2))
results <- topTreat(fit2, coef = 1, number = Inf)

library(ggplot2)

ggplot(results, aes(x = logFC, y = -log10(adj.P.Val))) +
    geom_point(aes(color = significant), alpha = 0.6) +
    geom_hline(yintercept = -log10(0.05), linetype = 'dashed') +
    geom_vline(xintercept = c(-1, 1), linetype = 'dashed') +
    scale_color_manual(values = c('grey60', 'firebrick')) +
    theme_minimal() + labs(x = 'Log2 Fold Change', y = '-Log10 Adjusted P-value')

Version Compatibility

Version Compatibility

Differential Protein Abundance

Version Compatibility

Version Compatibility

Differential Protein Abundance

Preprocessing Pipeline

Log2 Transformation

Normalization

Method Selection

limma Workflow (R)

DEqMS Workflow (R)

proDA Workflow (R)

Python Workflow

Fold Change Reporting

When to report raw fold changes

When to apply fold change shrinkage

Minimum fold change testing

Visualization

Common Pitfalls

Deep Research

Data Analyst

Academic Researcher

Data Scientist

Biopython

Binary Analysis Patterns

Version Compatibility

Version Compatibility

Differential Protein Abundance

Version Compatibility

Version Compatibility

Differential Protein Abundance

Preprocessing Pipeline

Log2 Transformation

Normalization

Method Selection

limma Workflow (R)

DEqMS Workflow (R)

proDA Workflow (R)

Python Workflow

Fold Change Reporting

When to report raw fold changes

When to apply fold change shrinkage

Minimum fold change testing

Visualization

Common Pitfalls

Related Skills

Deep Research

Data Analyst

Academic Researcher

Data Scientist

Biopython

Binary Analysis Patterns