스킬 파일

Adapt New Diffusion Model

Name: Adapt New Diffusion Model
Author: intel

Adapt AutoRound to support a new diffusion model architecture (DiT, UNet, hybrid AR+DiT). Use when a new diffusion model fails quantization, needs custom output configs, requires a custom pipeline function, or is a hybrid architecture with both autoregressive and diffusion components.

intel1,011 스타2026. 4. 17.

직업
카테고리: 머신러닝

스킬 내용

Adapting AutoRound for a New Diffusion Model Architecture

Overview

AutoRound's DiffusionCompressor works with standard diffusers pipelines (e.g., FLUX). This skill covers what code changes are needed when a new diffusion model doesn't work out-of-the-box. Common reasons for adaptation:

Transformer block type not registered in output_configs
Non-standard pipeline API (not compatible with pipe(prompts, ...))
Hybrid architecture with both AR and diffusion components
Model not detected as a diffusion model

Step 0: Diagnose the Problem

from auto_round import AutoRound

ar = AutoRound(
    "your-org/your-diffusion-model",
    scheme="W4A16",
    iters=2,
    nsamples=2,
    num_inference_steps=5,
)
ar.quantize_and_save(output_dir="./test_output", format="fake")

관련 스킬

Adapt New Diffusion Model | Skills Pool

Error / Symptom	Root Cause	Fix Section
"using LLM mode" instead of Diffusion	Model not detected as diffusion	Step 1
`assert len(output_config) == len(tmp_output)`	Block output config mismatch	Step 2
Pipeline call fails	Non-standard inference API	Step 3
Hybrid model only quantizes DiT	AR component not handled	Step 4

# auto_round/utils/model.py
def is_diffusion_model(model_or_path):
    # Checks for model_index.json presence

from auto_round.compressors import ExtraConfig

ar = AutoRound(
    model,
    extra_config=ExtraConfig(diffusion_config=DiffusionConfig(...)),
)

import diffusers

pipe = diffusers.AutoPipelineForText2Image.from_pretrained("your-model")
for name, module in pipe.transformer.named_modules():
    if hasattr(module, "forward") and "block" in name.lower():
        print(f"{name}: {type(module).__name__}")

output_configs = {
    "FluxTransformerBlock": ["encoder_hidden_states", "hidden_states"],
    "FluxSingleTransformerBlock": ["encoder_hidden_states", "hidden_states"],
    # Add your block type:
    "YourTransformerBlock": ["hidden_states"],  # output tensor names in order
}

output_configs["YourBlock"] = ["hidden_states", "encoder_hidden_states"]

output_configs["YourBlock"] = ["hidden_states"]

def your_model_pipeline_fn(pipe, prompts, guidance_scale=7.5, num_inference_steps=28, generator=None, **kwargs):
    """Custom pipeline function for YourModel."""
    for prompt in (prompts if isinstance(prompts, list) else [prompts]):
        pipe.generate(
            prompt=prompt,
            cfg_scale=guidance_scale,
            steps=num_inference_steps,
            generator=generator,
        )


ar = AutoRound(
    "your-model",
    pipeline_fn=your_model_pipeline_fn,
    num_inference_steps=28,
    guidance_scale=7.5,
)

pipe._autoround_pipeline_fn = your_model_pipeline_fn

from auto_round.compressors.diffusion.compressor import DiffusionCompressor


class YourModelCompressor(DiffusionCompressor):
    def _run_pipeline(self, prompts):
        generator = (
            None
            if self.generator_seed is None
            else torch.Generator(device=self.pipe.device).manual_seed(self.generator_seed)
        )
        self.pipe.your_custom_generate(
            prompts,
            steps=self.num_inference_steps,
            cfg=self.guidance_scale,
            generator=generator,
        )

HYBRID_AR_COMPONENTS = [
    "vision_language_encoder",  # GLM-Image
    "your_ar_component",  # Your model's AR attribute name
]

output_configs["YourDiTBlock"] = ["hidden_states", "encoder_hidden_states"]

def _get_your_hybrid_multimodal_block(model, quant_vision=False):
    block_names = []
    if quant_vision and hasattr(model, "vision_encoder"):
        block_names.append([f"vision_encoder.blocks.{i}" for i in range(len(model.vision_encoder.blocks))])
    block_names.append([f"language_model.layers.{i}" for i in range(len(model.language_model.layers))])
    return block_names


SPECIAL_MULTIMODAL_BLOCK["your_model_type"] = _get_your_hybrid_multimodal_block

ar = AutoRound(
    "your-hybrid-model",
    dataset="coco2014",  # DiT calibration
    ar_dataset="NeelNanda/pile-10k",  # AR calibration
    quant_ar=True,
    quant_dit=True,
)

def get_diffusion_dataloader(dataset_name, nsamples, ...):
    # Add handling for your dataset format
    if dataset_name == "your_custom_dataset":
        return _load_your_dataset(dataset_name, nsamples)
    ...

def test_your_diffusion_model():
    ar = AutoRound(
        "your-org/your-diffusion-model",
        scheme="W4A16",
        iters=2,
        nsamples=4,
        num_inference_steps=5,
        guidance_scale=7.5,
    )
    compressed_model, layer_config = ar.quantize()
    assert len(layer_config) > 0, "No layers quantized"
    ar.save_quantized(output_dir="./test_output", format="fake")

ar = AutoRound(
    "your-hybrid-model",
    quant_ar=True,
    quant_dit=True,
    iters=2,
    nsamples=4,
)

File	Purpose
`auto_round/compressors/diffusion/compressor.py`	`DiffusionCompressor`, `output_configs` dict
`auto_round/compressors/diffusion/hybrid.py`	`HybridCompressor`, `HYBRID_AR_COMPONENTS`
`auto_round/compressors/diffusion/dataset.py`	Calibration dataset loading
`auto_round/utils/model.py`	`is_diffusion_model()`, `diffusion_load_model()`
`auto_round/special_model_handler.py`	AR block handlers for hybrid models
`auto_round/autoround.py`	Model type routing (diffusion vs hybrid vs LLM)

Model	Type	What Was Adapted
FLUX.1-dev	Pure DiT	`output_configs` for `FluxTransformerBlock`/`FluxSingleTransformerBlock`
GLM-Image	Hybrid AR+DiT	`HYBRID_AR_COMPONENTS` + `SPECIAL_MULTIMODAL_BLOCK` + DiT `output_configs`
NextStep	Custom pipeline	`pipeline_fn` parameter for non-standard inference API

Adapt New Diffusion Model

Adapting AutoRound for a New Diffusion Model Architecture

Overview

Step 0: Diagnose the Problem

Adapt New Diffusion Model

Adapting AutoRound for a New Diffusion Model Architecture

Overview

Step 0: Diagnose the Problem

Step 1: Ensure Model Detection

Pipeline Loading

Step 2: Register Transformer Block Output Config

Find your block class name

Register in `output_configs`

How to determine output tensor names

Step 3: Handle Non-Standard Pipeline API

Option A: Pass `pipeline_fn` parameter (no code changes)

Option B: Attach to pipe object

Option C: Subclass DiffusionCompressor

Step 4: Add Hybrid AR+DiT Support

4a. Register AR component

4b. Register DiT block output config

4c. Register AR block handler

Hybrid quantization flow

Step 5: Add Custom Calibration Dataset (Optional)

Step 6: Test

Checklist

Key Files

Reference: Existing Adaptations

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

Adapt New Diffusion Model

Adapting AutoRound for a New Diffusion Model Architecture

Overview

Step 0: Diagnose the Problem

Adapt New Diffusion Model

Adapting AutoRound for a New Diffusion Model Architecture

Overview

Step 0: Diagnose the Problem

Step 1: Ensure Model Detection

Pipeline Loading

Step 2: Register Transformer Block Output Config

Find your block class name

Register in output_configs

How to determine output tensor names

Step 3: Handle Non-Standard Pipeline API

Option A: Pass pipeline_fn parameter (no code changes)

Option B: Attach to pipe object

Option C: Subclass DiffusionCompressor

Step 4: Add Hybrid AR+DiT Support

4a. Register AR component

4b. Register DiT block output config

4c. Register AR block handler

Hybrid quantization flow

Step 5: Add Custom Calibration Dataset (Optional)

Step 6: Test

Checklist

Key Files

Reference: Existing Adaptations

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

Register in `output_configs`

Option A: Pass `pipeline_fn` parameter (no code changes)