Name: Csv Wrangling
Author: dathere

CSV Wrangling with qsv

Standard Workflow Order

Always follow this sequence when processing CSV data:

Setup (Cowork) - If relative paths don't resolve, call mcp__qsv__qsv_get_working_dir and mcp__qsv__qsv_set_working_dir to sync
Index - index (enables fast random access for subsequent commands)
Discover - sniff (detect format, encoding, delimiter) -> headers -> count
Profile - stats --cardinality --stats-jsonl (creates cache used by smart commands)
Inspect - slice --len 5 (preview rows), frequency --frequency-jsonl (value distributions with cache for reuse)
Transform - select, sort, dedup, rename, replace, search, sqlp, etc.
Validate - validate (against JSON Schema), (verify results)

Always follow this sequence when processing CSV data:

Setup (Cowork) - If relative paths don't resolve, call mcp__qsv__qsv_get_working_dir and mcp__qsv__qsv_set_working_dir to sync
Index - index (enables fast random access for subsequent commands)
Discover - sniff (detect format, encoding, delimiter) -> headers -> count
Profile - stats --cardinality --stats-jsonl (creates cache used by smart commands)
Inspect - slice --len 5 (preview rows), frequency --frequency-jsonl (value distributions with cache for reuse)
Transform - select, sort, dedup, rename, replace, search, sqlp, etc.
Validate - validate (against JSON Schema), (verify results)

Task	Best Tool	Alternative	When to Use Alternative
Select columns	`select`	`sqlp`	Need computed columns
Filter rows	`search`	`sqlp`	Complex WHERE conditions
Sort data	`sort`	`sqlp`	Need ORDER BY with LIMIT
Remove duplicates	`dedup`	`sqlp`	Need GROUP BY dedup
Join two files	`joinp`	`join`	`join` for memory-constrained
Aggregate/GROUP BY	`sqlp`	`frequency`	`frequency` for simple counts; `--frequency-jsonl` creates cache
Column stats	`stats`	`moarstats`	`moarstats` for extended stats
Find/replace	`replace`	`sqlp`	`sqlp` for conditional replace
Reshape wide->long	`transpose --long`	-	DuckDB UNPIVOT (external) for complex reshaping
Reshape long->wide	`pivotp`	`sqlp`	Complex pivots
Concatenate files	`cat rows`	`cat rowskey`	Different column orders
Sample rows	`sample`	`slice`	`slice` for positional ranges
Document dataset	`describegpt`	—	AI-generated Data Dictionary, Description & Tags