Name: Nonfunctional Requirements for Data Engineering Systems
Author: chrisVillanueva

Nonfunctional Requirements for Data Engineering Systems

[WHAT] Guides the agent through trade-off analysis for data engineering systems using nonfunctional requirements: performance, reliability, scalability, and maintainability. Provides layered decision frameworks for system properties, pipeline design, and data operations. [WHEN] Activate when the user is defining SLOs/SLAs for data systems, evaluating pipeline latency vs throughput, choosing batch vs streaming, assessing fault tolerance strategies, planning capacity, or reasoning about ETL vs ELT, error handling, idempotency, or data quality trade-offs. [KEYWORDS] nonfunctional requirements, performance, reliability, scalability, maintainability, SLO, SLA, latency, throughput, percentiles, fault tolerance, batch, streaming, ETL, ELT, idempotency, data quality, observability, trade-off analysis, pipeline design.

chrisVillanueva0 Sterne18.04.2026

Kategorien: Data Engineering

Purpose

Every data engineering decision is a trade-off. Choosing batch over streaming buys simplicity but costs latency. Adding fault tolerance improves reliability but increases complexity. Enforcing data quality gates protects downstream consumers but slows throughput. This skill provides a structured framework for reasoning about these trade-offs across three layers: system properties, pipeline design, and data operations. The goal is not to prescribe answers but to ensure the right questions are asked and the right constraints are identified before committing to an architecture.

Core Concepts

The Four Nonfunctional Requirements

Every data system must balance four properties. These are not independent -- improving one often degrades another.

Performance measures how fast a system responds and how much work it can do. Two metrics matter:

Response time: elapsed time from request to answer, measured in percentiles (p50, p95, p99). The median tells you what a typical user experiences. The 99th percentile reveals your worst-case tail latency. Averages are misleading -- they hide the distribution.

Nonfunctional Requirements for Data Engineering Systems

chrisVillanueva0 Sterne18.04.2026

Kategorien: Data Engineering

Purpose

Core Concepts

The Four Nonfunctional Requirements

Every data system must balance four properties. These are not independent -- improving one often degrades another.

Performance measures how fast a system responds and how much work it can do. Two metrics matter:

Response time: elapsed time from request to answer, measured in percentiles (p50, p95, p99). The median tells you what a typical user experiences. The 99th percentile reveals your worst-case tail latency. Averages are misleading -- they hide the distribution.

Decision	Option A	Option B	Choose A When	Choose B When
Performance target	Optimize response time	Optimize throughput	User-facing queries, interactive dashboards	Batch processing, bulk data movement
Reliability	Fault prevention	Fault tolerance	Security contexts, irreversible damage	Hardware/software faults, operational errors
Scaling	Vertical (scale up)	Horizontal (scale out)	Data fits one machine, simpler operations	Scale/availability/latency forces distribution
Scaling arch	Shared-disk	Shared-nothing	On-prem warehouse, moderate scale	Cloud-native, elastic demand, geo-distribution
Maintainability	Simplicity	Feature richness	Small team, evolving requirements	Stable requirements, large dedicated team

Decision	Option A	Option B	Choose A When	Choose B When
Transform timing	ETL (transform before load)	ELT (load then transform)	Quality gates critical, structured target schema	Raw data preservation, flexible exploration, large volumes
Delivery model	Batch	Streaming	Latency tolerance > minutes, simpler operations	Real-time requirements, event-driven consumers
Delivery model	Micro-batch	True streaming	Near-real-time acceptable, simpler state management	Sub-second latency, continuous processing
Integration	Consolidation (move data)	Virtualization (query in place)	Analytics requiring joins across sources	Real-time access, minimal data duplication
Integration arch	Hub-and-spoke	Event-driven (ESB/Kafka)	Centralized control, few integrations	Many producers/consumers, independent evolution

Decision	Option A	Option B	Choose A When	Choose B When
Error handling	Fail-fast (stop pipeline)	Dead-letter (isolate bad records)	Data correctness is paramount, small batches	High-volume pipelines, partial failure acceptable
Idempotency	Overwrite target	Deduplication keys	Full recompute is cheap, target supports upsert	Append-only targets, high-volume incremental
Quality gates	Inline validation	Post-load validation	Pipeline can tolerate latency, quality is critical	Speed of ingestion is priority, fix quality downstream
Observability	Metrics only	Metrics + tracing + data profiling	Single-node, simple pipeline	Distributed, multi-stage, many failure modes

Nonfunctional Requirements for Data Engineering Systems

Purpose

Core Concepts

The Four Nonfunctional Requirements

Nonfunctional Requirements for Data Engineering Systems

Purpose

Core Concepts

The Four Nonfunctional Requirements

Performance Measurement

Overload and Backpressure

Fault Tolerance Strategies

Scalability Principles

Expert Recommendations

Decision Framework

Layer 1: System Properties

Layer 2: Pipeline Design

Layer 3: Data Operations

Trade-offs Matrix

System Properties

Pipeline Design

Data Operations

Subtle Judgments

Anti-patterns

Diagrams

References

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns