스킬 파일

Tooluniverse Binder Discovery

Name: Tooluniverse Binder Discovery
Author: mims-harvard

Discover novel small molecule binders for protein targets using structure-based and ligand-based approaches. Creates actionable reports with candidate compounds, ADMET profiles, and synthesis feasibility. Use when users ask to find small molecules for a target, identify novel binders, perform virtual screening, or need hit-to-lead compound identification.

mims-harvard1,271 스타2026. 3. 29.

직업
카테고리: 전산화학

스킬 내용

Small Molecule Binder Discovery Strategy

Systematic discovery of novel small molecule binders using 60+ ToolUniverse tools across druggability assessment, known ligand mining, similarity expansion, ADMET filtering, and synthesis feasibility.

LOOK UP DON'T GUESS - Always retrieve actual data from tools before drawing conclusions. Do not assume druggability, binding sites, or compound properties based on target class alone.

KEY PRINCIPLES:

Report-first approach - Create report file FIRST, then populate progressively
Target validation FIRST - Confirm druggability before compound searching
Multi-strategy approach - Combine structure-based and ligand-based methods
ADMET-aware filtering - Eliminate poor compounds early
Evidence grading - Grade candidates by supporting evidence
Actionable output - Provide prioritized candidates with rationale
English-first queries - Always use English terms in tool calls. Respond in the user's language

관련 스킬

Tooluniverse Binder Discovery | Skills Pool

tool_info = tu.tools.get_tool_info(tool_name="ChEMBL_get_target_activities")

1. UniProt_search(query=target_name, organism="human") -> UniProt accession
2. MyGene_query_genes(q=gene_symbol, species="human") -> Ensembl gene ID
3. ChEMBL_search_targets(query=target_name, organism="Homo sapiens") -> ChEMBL target ID
4. GtoPdb_get_targets(query=target_name) -> GtoPdb ID (if GPCR/channel/enzyme)

NvidiaNIM_genmol(smiles="...core...[*{3-8}]...tail...[*{1-3}]...", num_molecules=100, temperature=2.0, scoring="QED")

NvidiaNIM_molmim(smi=reference_smiles, num_molecules=50, algorithm="CMA-ES")

Target ID:     ChEMBL_search_targets -> GtoPdb_get_targets -> "Not in databases"
Druggability:  OpenTargets tractability -> DGIdb druggability -> target class proxy
Bioactivity:   ChEMBL -> BindingDB -> GtoPdb -> PubChem BioAssay -> "No data"
Structure:     PDB -> EMDB (membrane) -> NvidiaNIM_alphafold2 -> NvidiaNIM_esmfold -> AlphaFold DB -> "None"
Similarity:    ChEMBL similar -> PubChem similar -> "Search failed"
Docking:       get_diffdock_info -> NvidiaNIM_boltz2 -> similarity-based scoring
Generation:    NvidiaNIM_genmol -> NvidiaNIM_molmim -> similarity search only
Literature:    PubMed -> EuropePMC (preprints) -> OpenAlex
GPCR data:     GPCRdb_get_protein -> GtoPdb_get_targets

import requests, pandas as pd

# PubChem batch property retrieval (up to 100 CIDs per call)
cids = "2244,5988,3672"
url = f"https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/{cids}/property/MolecularWeight,XLogP,TPSA,HBondDonorCount,HBondAcceptorCount/JSON"
props = pd.DataFrame(requests.get(url).json()["PropertyTable"]["Properties"])

# ChEMBL bioactivity bulk download for a target
target_id = "CHEMBL203"  # EGFR
url = f"https://www.ebi.ac.uk/chembl/api/data/activity.json?target_chembl_id={target_id}&pchembl_value__gte=5&limit=1000"
activities = requests.get(url).json()["activities"]
df = pd.DataFrame(activities)[["molecule_chembl_id", "canonical_smiles", "pchembl_value", "standard_type"]]

# Lipinski Rule of 5 filtering (no RDKit needed)
lipinski = props[(props["MolecularWeight"] <= 500) & (props["XLogP"] <= 5) &
                 (props["HBondDonorCount"] <= 5) & (props["HBondAcceptorCount"] <= 10)]

# SDF download from PubChem (for docking input)
sdf_url = f"https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/{cids}/SDF"
sdf_content = requests.get(sdf_url).text

Tooluniverse Binder Discovery

Small Molecule Binder Discovery Strategy

Tooluniverse Binder Discovery

Small Molecule Binder Discovery Strategy

Binding Site Reasoning (Start Here)

Critical Workflow Requirements

1. Report-First Approach (MANDATORY)

2. Citation Requirements (MANDATORY)

Workflow Overview

Phase 0: Tool Verification

Phase 1: Target Validation

1.1 Identifier Resolution

1.2 Druggability Assessment

1.3 Binding Site Analysis

1.4 Structure Prediction (NVIDIA NIM)

Phase 2: Known Ligand Mining

Phase 3: Structure Analysis

Phase 3.5: Docking Validation (NVIDIA NIM)

Phase 4: Compound Expansion

4.1-4.3 Search-Based Expansion

4.4 De Novo Generation (NVIDIA NIM)

Phase 5: ADMET Filtering

Phase 6: Candidate Docking & Prioritization

Phase 6.5: Literature Evidence

Fallback Chains

Programmatic Access (Beyond Tools)

NVIDIA NIM Runtime Notes

Reference Files

Clinical Decision Support Documents

Brenda Database

Healthcare Cdss Patterns

Deep Research

Data Analyst

Academic Researcher