Name: Dataset Prep
Author: L-yifan

スキルを検索.../

Dataset Prep | Skills Pool

# Validate entire dataset directory
python scripts/validate_dataset.py --dir ../data/assist2009

# Validate specific file
python scripts/validate_dataset.py --file ../data/assist2009/data.txt --type raw
python scripts/validate_dataset.py --file ../data/assist2009/train_valid_sequences.csv --type csv

Option	Description
`--dataset NAME`	Dataset(s) to preprocess
`--all`	Process all available datasets
`--status`	Show preprocessing status only
`--data-dir PATH`	Data directory location
`--pykt-path PATH`	pykt-toolkit installation path
`--min-seq-len N`	Minimum sequence length (default: 3)
`--maxlen N`	Maximum sequence length (default: 200)
`--kfold N`	Number of CV folds (default: 5)
`--list`	List supported datasets with download URLs

Dataset	Type	Description
assist2009	Q+C	ASSISTments 2009-2010 Math
assist2012	Q+C	ASSISTments 2012-2013
assist2015	C	ASSISTments Skill Builder
assist2017	Q+C	ASSISTments Competition
algebra2005	Q+C	KDD Cup Algebra
bridge2algebra2006	Q+C	KDD Cup Bridge to Algebra
statics2011	C	Andes Physics
nips_task34	Q+C	Eedi Education Challenge
ednet	Q+C	TOEIC English (Riiid)
junyi2015	Q+C	Junyi Academy K-12 Math
slepemapy	Q+C	Geography
poj	C	Programming Judge

Option	Description
`--file PATH`	Single file to validate
`--dir PATH`	Dataset directory to validate
`--type raw/csv`	File type (auto-detected)
`--json`	Output results as JSON

Dataset Prep

pyKT Dataset Preparation

Quick Start

Check Preprocessing Status

Preprocess a Dataset

Validate Dataset

Dataset Prep

pyKT Dataset Preparation

Quick Start

Check Preprocessing Status

Preprocess a Dataset

Validate Dataset

Scripts

`preprocess.py`

`validate_dataset.py`

Supported Datasets

References

Workflow

Clickhouse Io

Clickhouse Io

Claude Devfleet

Clickhouse Io

Ai First Engineering

Postgres Patterns