Name: Bio Microbiome Taxonomy Assignment
Author: mdbabumiamssm

スキルを検索.../

Bio Microbiome Taxonomy Assignment | Skills Pool

# UNITE database for fungal ITS
taxa_its <- assignTaxonomy(seqtab_nochim, 'sh_general_release_dynamic_25.07.2023.fasta',
                           multithread = TRUE)

# Train classifier (one-time)
qiime feature-classifier fit-classifier-naive-bayes \
    --i-reference-reads silva-138-99-seqs.qza \
    --i-reference-taxonomy silva-138-99-tax.qza \
    --o-classifier silva-138-99-nb-classifier.qza

# Classify ASVs
qiime feature-classifier classify-sklearn \
    --i-classifier silva-138-99-nb-classifier.qza \
    --i-reads rep-seqs.qza \
    --o-classification taxonomy.qza

# Faster but requires exact or near-exact matches
vsearch --usearch_global asv_seqs.fasta \
    --db silva_138_SSURef_NR99.fasta \
    --id 0.97 \
    --blast6out taxonomy_vsearch.tsv \
    --top_hits_only

library(dada2)

# RDP training set (less detailed than SILVA)
taxa_rdp <- assignTaxonomy(seqtab_nochim, 'rdp_train_set_18.fa.gz',
                           multithread = TRUE)

library(DECIPHER)

# Load IDTAXA training set (download from http://www2.decipher.codes/Downloads.html)
load('SILVA_SSU_r138_2019.RData')  # Creates 'trainingSet' object

# Convert ASV sequences to DNAStringSet
dna <- DNAStringSet(getSequences(seqtab_nochim))

# Classify with IDTAXA
ids <- IdTaxa(dna, trainingSet, strand = 'top', processors = NULL, verbose = TRUE)

# Convert to matrix format like assignTaxonomy
ranks <- c('domain', 'phylum', 'class', 'order', 'family', 'genus', 'species')
taxa_idtaxa <- t(sapply(ids, function(x) {
    m <- match(ranks, x$rank)
    taxa <- x$taxon[m]
    taxa[startsWith(taxa, 'unclassified_')] <- NA
    taxa
}))
colnames(taxa_idtaxa) <- ranks

# assignTaxonomy returns bootstrap confidence
# Filter low-confidence assignments
taxa_filtered <- taxa
taxa_filtered[taxa_filtered < 80] <- NA  # If using minBoot output

# Or use confidence threshold during assignment
taxa <- assignTaxonomy(seqtab_nochim, 'silva_nr99_v138.1_train_set.fa.gz',
                       minBoot = 80, multithread = TRUE)

library(phyloseq)

# Create phyloseq object
ps <- phyloseq(otu_table(seqtab_nochim, taxa_are_rows = FALSE),
               tax_table(taxa))

# Add sample metadata
sample_data(ps) <- read.csv('sample_metadata.csv', row.names = 1)

# Rename ASVs for readability
taxa_names(ps) <- paste0('ASV', seq(ntaxa(ps)))

Database	Organisms	Taxonomy	Updated
SILVA 138.1	Bacteria, Archaea, Eukaryotes	7 ranks	2024
GTDB R220	Bacteria, Archaea	7 ranks (genome-based)	2024
RDP 18	Bacteria, Archaea	6 ranks	2016
UNITE 10.0	Fungi	7 ranks	2024
PR2 5.0	Protists	8 ranks	2024

Bio Microbiome Taxonomy Assignment

Taxonomy Assignment

DADA2 Naive Bayes Classifier

GTDB for 16S

UNITE for ITS (Fungi)

Bio Microbiome Taxonomy Assignment

Taxonomy Assignment

DADA2 Naive Bayes Classifier

GTDB for 16S

UNITE for ITS (Fungi)

QIIME2 Feature Classifier

VSEARCH Exact Matching

RDP Classifier

IDTAXA (DECIPHER) - Often More Accurate

Confidence Filtering

Combine into phyloseq

Database Comparison

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy

Bio Microbiome Taxonomy Assignment

Taxonomy Assignment

DADA2 Naive Bayes Classifier

GTDB for 16S

UNITE for ITS (Fungi)

Bio Microbiome Taxonomy Assignment

Taxonomy Assignment

DADA2 Naive Bayes Classifier

GTDB for 16S

UNITE for ITS (Fungi)

QIIME2 Feature Classifier

VSEARCH Exact Matching

RDP Classifier

IDTAXA (DECIPHER) - Often More Accurate

Confidence Filtering

Combine into phyloseq

Database Comparison

Related Skills

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy