Name: Data Prep
Author: Jinyeop3110

Verify environment:

source /home/yeopjin/orcd/pool/init_protein_llm.sh

List available datasets:

python src/data/download.py --dataset list

Download datasets (choose as needed):

# IPD PDB sample (recommended for training)
python src/data/download.py --dataset ipd_pdb_sample --output_dir ./data

# Swiss-Prot sequences
python src/data/download.py --dataset swissprot --output_dir ./data

# Mol-Instructions (HuggingFace)
python -c "from datasets import load_dataset; load_dataset('zjunlp/Mol-Instructions', 'Protein')"

Verify downloads:
```
ls -lh ./data/
```

Data Prep

Data Prep

Clinical Decision Support Documents

Brenda Database

Healthcare Cdss Patterns

Continuous Learning V2

Pytorch Patterns

Continuous Learning V2