Production-ready VCF processing and variant annotation skill combining local bioinformatics computation with ToolUniverse database integration. Designed to answer bioinformatics analysis questions about VCF data, mutation classification, variant filtering, and clinical annotation.

Domain Reasoning

VCF quality filtering must come before interpretation. A variant called at 2x read depth is unreliable regardless of its QUAL score, because stochastic sequencing errors at low depth can mimic true variants. The recommended minimums — depth > 10x, QUAL > 20, allele frequency consistent with expected zygosity — are not conservative; they are the floor below which calls cannot be trusted. Applying lenient filters to "keep more variants" sacrifices accuracy for coverage and produces false positives that propagate through all downstream analyses.

LOOK UP DON'T GUESS

Clinical significance of specific variants: query MyVariant_query_variants or EnsemblVEP_annotate_rsid; never cite ClinVar classifications from memory.
Population allele frequencies: retrieve from MyVariant.info or gnomAD tools; do not assume rarity.
ClinGen dosage sensitivity scores for genes in a CNV: call ; do not estimate HI/TS scores.

Domain Reasoning

LOOK UP DON'T GUESS

Clinical significance of specific variants: query MyVariant_query_variants or EnsemblVEP_annotate_rsid; never cite ClinVar classifications from memory.
Population allele frequencies: retrieve from MyVariant.info or gnomAD tools; do not assume rarity.
ClinGen dosage sensitivity scores for genes in a CNV: call ; do not estimate HI/TS scores.

Capability	Description
VCF Parsing	Pure Python + cyvcf2 parsers. VCF 4.x, gzipped, multi-sample, SNV/indel/SV
Mutation Classification	Maps SO terms, SnpEff ANN, VEP CSQ, GATK Funcotator to standard types
VAF Extraction	Handles AF, AD, AO/RO, NR/NV, INFO AF formats
Filtering	VAF, depth, quality, PASS, variant type, mutation type, consequence, chromosome, SV size
Statistics	Ti/Tv ratio, per-sample VAF/depth stats, mutation type distribution, SV size distribution
Annotation	MyVariant.info (aggregates ClinVar, dbSNP, gnomAD, CADD, SIFT, PolyPhen)
SV/CNV Analysis	gnomAD SV population frequencies, DGVa/dbVar known SVs, ClinGen dosage sensitivity
Clinical Interpretation	ACMG/ClinGen CNV pathogenicity classification using haploinsufficiency/triplosensitivity scores
DataFrame	Convert to pandas for advanced analytics
Reporting	Markdown reports with tables and statistics, SV clinical reports

Tool	When to Use	Parameters	Response
`MyVariant_query_variants`	Batch annotation	`query` (rsID/HGVS)	ClinVar, dbSNP, gnomAD, CADD
`dbsnp_get_variant_by_rsid`	Population frequencies	`rsid`	Frequencies, clinical significance
`gnomad_get_variant`	gnomAD metadata	`variant_id` (CHR-POS-REF-ALT)	Basic variant info
`EnsemblVEP_annotate_rsid`	Consequence prediction	`variant_id` (rsID)	Transcript impact

Tool	When to Use	Parameters	Response
`gnomad_get_sv_by_gene`	SV population frequency	`gene_symbol`	SVs with AF, AC, AN
`gnomad_get_sv_by_region`	Regional SV search	`chrom`, `start`, `end`	SVs in region
`ClinGen_dosage_by_gene`	Dosage sensitivity	`gene_symbol`	HI/TS scores, disease
`ClinGen_dosage_region_search`	Dosage-sensitive genes in region	`chromosome`, `start`, `end`	All genes with HI/TS scores
`ensembl_get_structural_variants`	Known SVs from DGVa/dbVar	`chrom`, `start`, `end`, `species`	Clinical significance

Variant Analysis and Annotation

Domain Reasoning

LOOK UP DON'T GUESS

Variant Analysis and Annotation

Domain Reasoning

LOOK UP DON'T GUESS

CRISPR sgRNA Design Reasoning

When to Use This Skill

Core Capabilities

Workflow Overview

Phase Summaries

Phase 1: VCF Parsing

Phase 2: Variant Classification

Phase 3: Filtering

Phase 4-6: Statistics, Annotation, Reporting

Phase 7: Structural Variant & CNV Analysis

Answering BixBench Questions

Pattern 1: VAF + Mutation Type Fraction

Pattern 2: Cohort Comparison

Pattern 3: Filter and Count

ToolUniverse Tools Reference

SNV/Indel Annotation

Structural Variant Annotation

Common Use Patterns

Limitations

Reference Documentation

Additional Resources

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy