Name: Biological Sequence Retrieval
Author: FreedomIntelligence

搵技能.../

Biological Sequence Retrieval | Skills Pool

from tooluniverse import ToolUniverse
tu = ToolUniverse()
tu.load_tools()

# Strategy depends on input type
if user_provided_accession:
    # Direct retrieval based on accession type
    accession = user_provided_accession
    
elif user_provided_gene_and_organism:
    # Search NCBI Nucleotide
    result = tu.tools.NCBI_search_nucleotide(
        operation="search",
        organism=organism,
        gene=gene,
        limit=10
    )

Prefix	Type	Use With
NC_*	RefSeq chromosome	NCBI only
NM_*	RefSeq mRNA	NCBI only
NR_*	RefSeq ncRNA	NCBI only
NP_*	RefSeq protein	NCBI only
XM_*	RefSeq predicted mRNA	NCBI only
U, M, K, X	GenBank	NCBI or ENA
CP, NZ_	GenBank genome	NCBI or ENA
EMBL format	EMBL	ENA preferred

# Search NCBI Nucleotide
result = tu.tools.NCBI_search_nucleotide(
    operation="search",
    organism=organism,
    gene=gene,
    strain=strain,  # Optional
    keywords=keywords,  # Optional
    seq_type=seq_type,  # complete_genome, mrna, refseq
    limit=10
)

# Get accession numbers from UIDs
accessions = tu.tools.NCBI_fetch_accessions(
    operation="fetch_accession",
    uids=result["data"]["uids"]
)

# Get sequence in desired format
sequence = tu.tools.NCBI_get_sequence(
    operation="fetch_sequence",
    accession=accession,
    format="fasta"  # or "genbank"
)

# GenBank format for annotations
annotations = tu.tools.NCBI_get_sequence(
    operation="fetch_sequence",
    accession=accession,
    format="genbank"
)

# Only for non-RefSeq accessions!
if not accession.startswith(("NC_", "NM_", "NR_", "NP_", "XM_", "XR_")):
    # ENA entry info
    entry = tu.tools.ena_get_entry(accession=accession)
    
    # ENA FASTA
    fasta = tu.tools.ena_get_sequence_fasta(accession=accession)
    
    # ENA summary
    summary = tu.tools.ena_get_entry_summary(accession=accession)

# Sequence Profile: [Gene/Organism]

**Search Summary**
- Query: [gene] in [organism]
- Database: NCBI Nucleotide
- Results: [N] sequences found

---

## Primary Sequence

### [Accession]: [Definition/Title]

| Attribute | Value |
|-----------|-------|
| **Accession** | [accession] |
| **Type** | RefSeq / GenBank |
| **Organism** | [scientific name] |
| **Strain** | [strain if applicable] |
| **Length** | [X,XXX bp / aa] |
| **Molecule** | DNA / mRNA / Protein |
| **Topology** | Linear / Circular |

**Curation Level**: ●●● RefSeq (curated) / ●●○ GenBank (submitted) / ●○○ Third-party

### Sequence Statistics
| Statistic | Value |
|-----------|-------|
| **Length** | [X,XXX] bp |
| **GC Content** | [XX.X]% |
| **Genes** | [N] (if genome) |
| **CDS** | [N] (if annotated) |

### Sequence Preview
```fasta
>[accession] [definition]
ATGCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCG
ATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGATCGA
... [truncated, full sequence in download]

# FASTA format
tu.tools.NCBI_get_sequence(
    operation="fetch_sequence",
    accession="[accession]",
    format="fasta"
)

# GenBank format (with annotations)
tu.tools.NCBI_get_sequence(
    operation="fetch_sequence",
    accession="[accession]",
    format="genbank"
)


---

## Curation Level Tiers

| Tier | Symbol | Accession Prefix | Description |
|------|--------|------------------|-------------|
| RefSeq Reference | ●●●● | NC_, NM_, NP_ | NCBI-curated, gold standard |
| RefSeq Predicted | ●●●○ | XM_, XP_, XR_ | Computationally predicted |
| GenBank Validated | ●●○○ | Various | Submitted, some curation |
| GenBank Direct | ●○○○ | Various | Direct submission |
| Third Party | ○○○○ | TPA_ | Third-party annotation |

Include in report:
```markdown
**Curation Level**: ●●●● RefSeq Reference
- Curated by NCBI RefSeq project
- Regular updates and validation
- Recommended for reference use

result = tu.tools.NCBI_search_nucleotide(
    operation="search",
    organism="Escherichia coli",
    strain="K-12",
    seq_type="complete_genome",
    limit=3
)
# Return NC_000913.3 (RefSeq reference)

result = tu.tools.NCBI_search_nucleotide(
    operation="search",
    organism="Homo sapiens",
    gene="BRCA1",
    seq_type="mrna",
    limit=10
)

Error	Response
"No search criteria provided"	Add organism, gene, or keywords
"ENA 404 error"	Accession is likely RefSeq → use NCBI only
"No results found"	Broaden search, check spelling, try synonyms
"Sequence too large"	Note size, provide download link instead of preview
"API rate limit"	Tools auto-retry; if persistent, wait briefly

Parameter	Description	Example
`operation`	Always "search"	"search"
`organism`	Scientific name	"Homo sapiens"
`gene`	Gene symbol	"BRCA1"
`strain`	Specific strain	"K-12"
`keywords`	Free text	"complete genome"
`seq_type`	Sequence type	"complete_genome", "mrna", "refseq"
`limit`	Max results	10

Primary	Fallback	Notes
NCBI_get_sequence	ENA (if GenBank format)	NCBI unavailable
ENA_get_entry	NCBI_get_sequence	ENA doesn't have RefSeq
NCBI_search_nucleotide	Try broader keywords	No results

Feature	Count	Examples
CDS	[N]	[gene names]
tRNA	[N]	-
rRNA	[N]	16S, 23S
Regulatory	[N]	promoters

Accession	Type	Length	Description	ENA Compatible
NC_000913.3	RefSeq	4.6 Mb	E. coli K-12 reference	✗
U00096.3	GenBank	4.6 Mb	E. coli K-12	✓
CP001509.3	GenBank	4.6 Mb	E. coli DH10B	✓

Database	Accession	Link
RefSeq	[NC_*]	[NCBI link]
GenBank	[U*]	[NCBI link]
ENA/EMBL	[same as GenBank]	[ENA link]
BioProject	[PRJNA*]	[link]
BioSample	[SAMN*]	[link]

Format	Description	Use Case
FASTA	Sequence only	BLAST, alignment
GenBank	Sequence + annotations	Gene analysis
GFF3	Annotations only	Genome browsers

Tool	Purpose
`NCBI_search_nucleotide`	Search by gene/organism
`NCBI_fetch_accessions`	Convert UIDs to accessions
`NCBI_get_sequence`	Retrieve sequence data

Tool	Purpose
`ena_get_entry`	Entry metadata
`ena_get_sequence_fasta`	FASTA sequence
`ena_get_entry_summary`	Summary info

Parameter	Description	Example
`operation`	Always "fetch_sequence"	"fetch_sequence"
`accession`	Accession number	"NC_000913.3"
`format`	Output format	"fasta", "genbank"

Accession	Strain	Similarity	Notes
[acc1]	[strain1]	99.9%	[notes]
[acc2]	[strain2]	99.5%	[notes]

Biological Sequence Retrieval

Workflow Overview

Phase 0: Clarification (When Needed)

Biological Sequence Retrieval

Workflow Overview

Phase 0: Clarification (When Needed)

Phase 1: Gene/Organism Disambiguation

1.1 Resolve Identifiers

1.2 Accession Type Decision Tree

1.3 Identity Resolution Checklist

Phase 2: Data Retrieval (Internal)

2.1 Search for Sequences

2.2 Retrieve Sequence Data

2.3 ENA Alternative (for GenBank/EMBL accessions)

Fallback Chains

Phase 3: Report Sequence Profile

Output Structure

Annotations Summary (from GenBank format)

Alternative Sequences

Cross-Database References

Download Options

Formats Available

Direct Commands

Related Sequences

Other Strains/Isolates

Protein Products (if applicable)

Completeness Checklist

Per Sequence (Required)

Search Summary (Required)

Include Even If Limited

Common Use Cases

Reference Genome

Gene Sequence

Specific Accession

Strain Comparison

Error Handling

Tool Reference

Search Parameters Reference

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy