Name: Bio Variant Calling Deepvariant
Author: FreedomIntelligence

Search skills.../

Bio Variant Calling Deepvariant | Skills Pool

singularity pull docker://google/deepvariant:1.6.1

docker run -v "${PWD}:/input" -v "${PWD}/output:/output" \
    google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=WGS \
    --ref=/input/reference.fa \
    --reads=/input/sample.bam \
    --output_vcf=/output/sample.vcf.gz \
    --output_gvcf=/output/sample.g.vcf.gz \
    --num_shards=16

Model	Data Type	Use Case
`WGS`	Illumina WGS	Whole genome sequencing
`WES`	Illumina WES	Whole exome/targeted
`PACBIO`	PacBio HiFi	Long-read HiFi
`ONT_R104`	ONT R10.4	Oxford Nanopore
`HYBRID_PACBIO_ILLUMINA`	Mixed	Hybrid assemblies

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/make_examples \
    --mode calling \
    --ref /data/reference.fa \
    --reads /data/sample.bam \
    --examples /data/examples.tfrecord.gz \
    --gvcf /data/gvcf.tfrecord.gz

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/call_variants \
    --outfile /data/call_variants.tfrecord.gz \
    --examples /data/examples.tfrecord.gz \
    --checkpoint /opt/models/wgs/model.ckpt

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/postprocess_variants \
    --ref /data/reference.fa \
    --infile /data/call_variants.tfrecord.gz \
    --outfile /data/output.vcf.gz \
    --gvcf_outfile /data/output.g.vcf.gz \
    --nonvariant_site_tfrecord_path /data/gvcf.tfrecord.gz

docker run --gpus all -v "${PWD}:/data" \
    google/deepvariant:1.6.1-gpu \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=WGS \
    --ref=/data/reference.fa \
    --reads=/data/sample.bam \
    --output_vcf=/data/output.vcf.gz \
    --num_shards=16

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=PACBIO \
    --ref=/data/reference.fa \
    --reads=/data/hifi_aligned.bam \
    --output_vcf=/data/hifi_variants.vcf.gz \
    --num_shards=16

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=ONT_R104 \
    --ref=/data/reference.fa \
    --reads=/data/ont_aligned.bam \
    --output_vcf=/data/ont_variants.vcf.gz \
    --num_shards=16

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=WES \
    --ref=/data/reference.fa \
    --reads=/data/exome.bam \
    --regions=/data/targets.bed \
    --output_vcf=/data/exome_variants.vcf.gz \
    --num_shards=8

# Generate gVCFs for each sample
for bam in *.bam; do
    sample=$(basename $bam .bam)
    docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
        /opt/deepvariant/bin/run_deepvariant \
        --model_type=WGS \
        --ref=/data/reference.fa \
        --reads=/data/$bam \
        --output_vcf=/data/${sample}.vcf.gz \
        --output_gvcf=/data/${sample}.g.vcf.gz \
        --num_shards=16
done

# Joint genotyping with GLnexus
docker run -v "${PWD}:/data" quay.io/mlin/glnexus:v1.4.1 \
    /usr/local/bin/glnexus_cli \
    --config DeepVariantWGS \
    /data/*.g.vcf.gz \
    | bcftools view - -Oz -o cohort.vcf.gz

# Variant statistics
bcftools stats output.vcf.gz > stats.txt

# Filter by quality
bcftools view -i 'QUAL>20 && FMT/GQ>20' output.vcf.gz -Oz -o filtered.vcf.gz

# Ti/Tv ratio (expect ~2.0-2.1 for WGS)
bcftools stats output.vcf.gz | grep TSTV

# Using hap.py for GIAB benchmarking
docker run -v "${PWD}:/data" jmcdani20/hap.py:latest \
    /opt/hap.py/bin/hap.py \
    /data/HG002_GRCh38_truth.vcf.gz \
    /data/deepvariant_output.vcf.gz \
    -r /data/reference.fa \
    -o /data/benchmark \
    --threads 16

#!/bin/bash
set -euo pipefail

BAM=$1
REFERENCE=$2
OUTPUT_PREFIX=$3
MODEL_TYPE=${4:-WGS}
THREADS=${5:-16}

echo "=== DeepVariant: ${MODEL_TYPE} mode ==="

docker run -v "${PWD}:/data" google/deepvariant:1.6.1 \
    /opt/deepvariant/bin/run_deepvariant \
    --model_type=${MODEL_TYPE} \
    --ref=/data/${REFERENCE} \
    --reads=/data/${BAM} \
    --output_vcf=/data/${OUTPUT_PREFIX}.vcf.gz \
    --output_gvcf=/data/${OUTPUT_PREFIX}.g.vcf.gz \
    --intermediate_results_dir=/data/${OUTPUT_PREFIX}_tmp \
    --num_shards=${THREADS}

echo "=== Indexing ==="
bcftools index -t ${OUTPUT_PREFIX}.vcf.gz
bcftools index -t ${OUTPUT_PREFIX}.g.vcf.gz

echo "=== Statistics ==="
bcftools stats ${OUTPUT_PREFIX}.vcf.gz > ${OUTPUT_PREFIX}_stats.txt

echo "=== Complete ==="
echo "VCF: ${OUTPUT_PREFIX}.vcf.gz"
echo "gVCF: ${OUTPUT_PREFIX}.g.vcf.gz"

Config	Use Case
`DeepVariantWGS`	Illumina WGS
`DeepVariantWES`	Illumina exome
`DeepVariant_unfiltered`	Keep all variants

Caller	Speed	Accuracy	Best For
DeepVariant	Moderate	Highest	Production, benchmarking
GATK HaplotypeCaller	Moderate	High	GATK ecosystem
bcftools	Fast	Good	Quick analysis
Clair3	Fast	High	Long reads

Data Type	Memory	CPU Time (30x WGS)
WGS	64 GB	~4-6 hours
WES	32 GB	~30 min
With GPU	32 GB	~1-2 hours (WGS)

Bio Variant Calling Deepvariant

Version Compatibility

DeepVariant Variant Calling

Installation

Docker (Recommended)

Bio Variant Calling Deepvariant

Version Compatibility

DeepVariant Variant Calling

Installation

Docker (Recommended)

Singularity

Basic Usage

One-Step Run (run_deepvariant)

Model Types

Step-by-Step Workflow

Step 1: Make Examples

Step 2: Call Variants

Step 3: Postprocess Variants

GPU Acceleration

PacBio HiFi Calling

ONT Calling

Exome/Targeted Sequencing

Joint Calling with GLnexus

GLnexus Configurations

Output Quality Metrics

Benchmarking Against Truth Set

Complete Workflow Script

Comparison with Other Callers

Resource Requirements

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy

Bio Variant Calling Deepvariant

Version Compatibility

DeepVariant Variant Calling

Installation

Docker (Recommended)

Bio Variant Calling Deepvariant

Version Compatibility

DeepVariant Variant Calling

Installation

Docker (Recommended)

Singularity

Basic Usage

One-Step Run (run_deepvariant)

Model Types

Step-by-Step Workflow

Step 1: Make Examples

Step 2: Call Variants

Step 3: Postprocess Variants

GPU Acceleration

PacBio HiFi Calling

ONT Calling

Exome/Targeted Sequencing

Joint Calling with GLnexus

GLnexus Configurations

Output Quality Metrics

Benchmarking Against Truth Set

Complete Workflow Script

Comparison with Other Callers

Resource Requirements

Related Skills

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy