스킬 파일

CoreWeave Performance Tuning

Name: CoreWeave Performance Tuning
Author: jeremylongshore

Optimize CoreWeave GPU inference latency and throughput. Use when reducing inference latency, maximizing GPU utilization, or tuning batch sizes and concurrency. Trigger with phrases like "coreweave performance", "coreweave latency", "coreweave throughput", "optimize coreweave inference".

jeremylongshore1,965 스타2026. 3. 22.

직업
카테고리: 프레임워크 내부 구조

스킬 내용

GPU Selection by Workload

Workload	Recommended GPU	Why
LLM inference (7-13B)	A100 80GB	Good balance of memory and cost
LLM inference (70B+)	8xH100	NVLink for tensor parallelism
Image generation	L40	Good for diffusion models
Training (large models)	8xH100 SXM5	Fastest interconnect
Batch processing	A100 40GB	Cost-effective

Inference Optimization

# Continuous batching with vLLM

CoreWeave Performance Tuning

GPU Selection by Workload

Inference Optimization

CoreWeave Performance Tuning

GPU Selection by Workload

Inference Optimization

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2