Name: Devtu Optimize Skills
Author: mims-harvard

Devtu Optimize Skills | Skills Pool

#	Pattern	Key Idea
1	Tool Interface Verification	`get_tool_info()` before first call; maintain corrections table
2	Foundation Data Layer	Query aggregator (Open Targets, PubChem) FIRST
3	Versioned Identifiers	Capture both `ENSG00000123456` and `.12` version
4	Disambiguation First	Resolve IDs, detect collisions, build negative filters
5	Report-Only Output	Narrative in report; methodology in appendix only if asked
6	Evidence Grading	T1 (mechanistic) → T2 (functional) → T3 (association) → T4 (mention)
7	Quantified Completeness	Numeric minimums per section (>=20 PPIs, top 10 tissues)
8	Mandatory Checklist	All sections exist, even if "Limited evidence"
9	Aggregated Data Gaps	Single section consolidating all missing data
10	Query Strategy	High-precision seeds → citation expansion → collision-filtered broad
11	Tool Failure Handling	Primary → Fallback 1 → Fallback 2 → document unavailable
12	Scalable Output	Narrative report + JSON/CSV bibliography
13	Synthesis Sections	Biological model + testable hypotheses, not just paper lists

Phase -1: Tool Verification (check params)
Phase  0: Foundation Data (aggregator query)
Phase  1: Disambiguation (IDs, collisions, baseline)
Phase  2: Specialized Queries (fill gaps)
Phase  3: Report Synthesis (evidence-graded narrative)

Bad (tool catalog)	Good (reasoning framework)
"Get GO terms from MGnify"	GO terms → interpretation table: butyrate genes = barrier integrity, LPS genes = inflammation
"Get DepMap dependency scores"	Score < -0.5 = essential, but pan-essential = bad drug target (toxicity); selective = good target
"Get FAERS counts"	PRR > 5 = strong signal, but signal ≠ causation (channeling bias, notoriety bias)

Gap	Procedure	Packages
API doesn't return needed data (e.g., DepMap scores)	Download CSV + pandas analysis	pandas
Statistical testing (differential abundance, enrichment)	scipy.stats + FDR correction	scipy, statsmodels
Sequence analysis (alignment, conservation)	Biopython SeqIO + pairwise alignment	biopython
Chemical similarity (analog search, fingerprints)	RDKit fingerprints + Tanimoto	rdkit (visualization extra)
Network analysis (hub genes, clustering)	NetworkX graph metrics	networkx
Scoring algorithms (ACMG classification, viability scores)	Custom Python functions	built-in
Dose feasibility (Cmax vs IC50 comparison)	Numerical comparison + PK data	pandas, numpy

**Computational procedure: [Name]**
[When to use this: explain the gap it fills]

\`\`\`python
# [What this computes]
# Requires: [packages] (included in ToolUniverse dependencies)
import pandas as pd
from scipy.stats import mannwhitneyu

# Input: [describe expected input format]
# Output: [describe output]
# [Full working code with example data]
\`\`\`

[Interpretation guidance for the output]

**Step 1: Download data files**
- URL: [exact download page URL]
- Files needed: [filename] (~[size]) — [what it contains]
- Registration: [required/not required]
- Update frequency: [quarterly/annually/etc.]

**Step 2: Process with Python**
[Working code with pandas/scipy that loads the CSV and produces the analysis]

**Step 3: Interpret results**
[Table mapping output values to biological/clinical meaning]

**When files are not available**: [Fallback strategy using API tools]

Dataset	Download URL	Files	Used By
DepMap CRISPR	depmap.org/portal/download/all/	CRISPRGeneEffect.csv (~300MB), Model.csv (~2MB)	functional-genomics, cell-line-profiling
TCGA clinical	portal.gdc.cancer.gov	Clinical + mutation TSVs	cancer-genomics-tcga
GTEx expression	gtexportal.org/home/downloads	GTEx_Analysis_v8_Annotations.csv	expression-data-retrieval
ClinGen gene-disease	clinicalgenome.org/docs/	gene_curation_list.tsv	variant-interpretation
gnomAD constraint	gnomad.broadinstitute.org/downloads	constraint metrics TSV	functional-genomics

Anti-Pattern	Fix
"Search Log" reports	Keep methodology internal; report findings only
Missing disambiguation	Add collision detection; build negative filters
No evidence grading	Apply T1-T4 grades; label each claim
Empty sections omitted	Include with "None identified"
No synthesis	Add biological model + hypotheses
Silent failures	Document in Data Gaps; implement fallbacks
Wrong tool parameters	Verify via `get_tool_info()` before calling
GTEx returns nothing	Try versioned ID `ENSG*.version`
No foundation layer	Query aggregator first
Untested tool calls	Test-driven: test script FIRST
Tool catalog without interpretation	Add interpretation tables explaining what data means
Aspirational capabilities	Be honest when APIs can't deliver; add computational procedure instead
Missing statistical analysis	Add scipy/pandas code procedure for computation the tools can't do

Complaint	Fix
"Report too short"	Add Phase 0 foundation + Phase 1 disambiguation
"Too much noise"	Add collision filtering
"Can't tell what's important"	Add T1-T4 evidence tiers
"Missing sections"	Add mandatory checklist with minimums
"Too long/unreadable"	Separate narrative from JSON
"Just a list of papers"	Add synthesis sections
"Tool failed, no data"	Add retry + fallback chains

---

Devtu Optimize Skills

Optimizing ToolUniverse Skills

Tool Quality Standards

Core Principles (13 Patterns)

Devtu Optimize Skills

Optimizing ToolUniverse Skills

Tool Quality Standards

Core Principles (13 Patterns)

Optimized Skill Workflow

Testing Standards

Pattern 14: Reasoning Frameworks Over Tool Catalogs (CRITICAL)

14a. Interpretation Tables

14b. Synthesis Phases

14c. Honest Limitations

Pattern 15: Computational Procedures When Tools Can't Help

When to use computational procedures:

Template for computational procedures in skills:

Key rules for computational procedures:

Pattern 15b: Download-and-Process for Datasets Without REST APIs

Common Anti-Patterns

Quick Fixes for User Complaints

Skill Template

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns