Name: Bio Format Conversion
Author: GPTomics

スキルを検索.../

Bio Format Conversion | Skills Pool

from Bio import SeqIO

count = SeqIO.convert('input.gb', 'genbank', 'output.fasta', 'fasta')
print(f'Converted {count} records')

From	To	Notes
GenBank	FASTA	Loses annotations, keeps sequence
FASTA	GenBank	Need to add molecule_type
FASTQ	FASTA	Loses quality scores
FASTA	FASTQ	Need to add quality scores
GenBank	EMBL	Usually works directly
Stockholm	FASTA	Alignment to sequences

SeqIO.convert('input.gb', 'genbank', 'output.fasta', 'fasta')

SeqIO.convert('sequence.gb', 'genbank', 'sequence.fasta', 'fasta')

SeqIO.convert('reads.fastq', 'fastq', 'reads.fasta', 'fasta')

records = SeqIO.parse('input.fasta', 'fasta')
def add_molecule_type(records):
    for record in records:
        record.annotations['molecule_type'] = 'DNA'
        yield record

SeqIO.write(add_molecule_type(records), 'output.gb', 'genbank')

def add_quality(records, quality=30):
    for record in records:
        record.letter_annotations['phred_quality'] = [quality] * len(record.seq)
        yield record

records = SeqIO.parse('input.fasta', 'fasta')
SeqIO.write(add_quality(records), 'output.fastq', 'fastq')

from pathlib import Path

for gb_file in Path('.').glob('*.gb'):
    fasta_file = gb_file.with_suffix('.fasta')
    count = SeqIO.convert(str(gb_file), 'genbank', str(fasta_file), 'fasta')
    print(f'{gb_file.name}: {count} records')

from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

def uppercase_record(rec):
    return SeqRecord(rec.seq.upper(), id=rec.id, description=rec.description)

records = SeqIO.parse('input.fasta', 'fasta')
modified = (uppercase_record(rec) for rec in records)
SeqIO.write(modified, 'output.fasta', 'fasta')

from Bio import AlignIO

AlignIO.convert('alignment.sto', 'stockholm', 'alignment.phy', 'phylip')

Error	Cause	Solution
`ValueError: missing molecule_type`	FASTA to GenBank	Add molecule_type annotation
`ValueError: missing quality scores`	FASTA to FASTQ	Add phred_quality to letter_annotations
`KeyError: 'phred_quality'`	Wrong FASTQ variant	Try 'fastq-sanger', 'fastq-illumina'

Converting formats?
├── Simple conversion (no data changes)?
│   └── Use SeqIO.convert() directly
├── Need to add annotations?
│   └── Parse, modify records, then write
├── Need to transform sequences?
│   └── Parse, apply transformation, then write
└── Multiple files?
    └── Loop with SeqIO.convert() or batch generator

Bio Format Conversion

Version Compatibility

Format Conversion

Required Import

Bio Format Conversion

Version Compatibility

Format Conversion

Required Import

Core Function

SeqIO.convert() - Direct Conversion

Common Conversions

Code Patterns

Simple Conversion

GenBank to FASTA

FASTQ to FASTA (drop quality)

FASTA to GenBank (requires molecule_type)

FASTA to FASTQ (add dummy quality)

Batch Convert Multiple Files

Convert with Modifications

Alignment Format Conversion

Format Compatibility Matrix

Common Errors

Decision Tree

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy

Bio Format Conversion

Version Compatibility

Format Conversion

Required Import

Bio Format Conversion

Version Compatibility

Format Conversion

Required Import

Core Function

SeqIO.convert() - Direct Conversion

Common Conversions

Code Patterns

Simple Conversion

GenBank to FASTA

FASTQ to FASTA (drop quality)

FASTA to GenBank (requires molecule_type)

FASTA to FASTQ (add dummy quality)

Batch Convert Multiple Files

Convert with Modifications

Alignment Format Conversion

Format Compatibility Matrix

Common Errors

Decision Tree

Related Skills

Nanoclaw Repl

Bioinformatics

Smart Explore

Vector Database Engineer

Skin Health Analyzer

Scanpy