Skill-Datei

Data Cleaning and Variable Screening

Name: Data Cleaning and Variable Screening
Author: github

Credit risk data cleaning and variable screening pipeline for pre-loan modeling. Use when working with raw credit data that needs quality assessment, missing value analysis, or variable selection before modeling. it covers data loading and formatting, abnormal period filtering, missing rate calculation, high-missing variable removal,low-IV variable filtering, high-PSI variable removal, Null Importance denoising, high-correlation variable removal, and cleaning report generation. Applicable scenarios arecredit risk data cleaning, variable screening, pre-loan modeling preprocessing.

github30,320 Sterne02.03.2026

Beruf
Kategorien: Debugging

Skill-Inhalt

Quick Start

# Run the complete data cleaning pipeline
python ".github/skills/datanalysis-credit-risk/scripts/example.py"

Complete Process Description

The data cleaning pipeline consists of the following 11 steps, each executed independently without deleting the original data:

Get Data - Load and format raw data
Organization Sample Analysis - Statistics of sample count and bad sample rate for each organization
Separate OOS Data - Separate out-of-sample (OOS) samples from modeling samples
Filter Abnormal Months - Remove months with insufficient bad sample count or total sample count
Calculate Missing Rate - Calculate overall and organization-level missing rates for each feature
Drop High Missing Rate Features - Remove features with overall missing rate exceeding threshold

Verwandte Skills

Data Cleaning and Variable Screening | Skills Pool

Function	Purpose	Module
`get_dataset()`	Load and format data	references.func
`org_analysis()`	Organization sample analysis	references.func
`missing_check()`	Calculate missing rate	references.func
`drop_abnormal_ym()`	Filter abnormal months	references.analysis
`drop_highmiss_features()`	Drop high missing rate features	references.analysis
`drop_lowiv_features()`	Drop low IV features	references.analysis
`drop_highpsi_features()`	Drop high PSI features	references.analysis
`drop_highnoise_features()`	Null Importance denoising	references.analysis
`drop_highcorr_features()`	Drop high correlation features	references.analysis
`iv_distribution_by_org()`	IV distribution statistics	references.analysis
`psi_distribution_by_org()`	PSI distribution statistics	references.analysis
`value_ratio_distribution_by_org()`	Value ratio distribution statistics	references.analysis
`export_cleaning_report()`	Export cleaning report	references.analysis

Data Cleaning and Variable Screening

Quick Start

Complete Process Description

Data Cleaning and Variable Screening

Quick Start

Complete Process Description

Core Functions

Parameter Description

Data Loading Parameters

OOS Organization Configuration

Abnormal Month Filtering Parameters

Missing Rate Parameters

IV Parameters

PSI Parameters

Null Importance Parameters

High Correlation Parameters

Output Report

Features

Session Logs

OpenClaw Test Heap Leaks

Node Connect

Openclaw Qa Testing

Openclaw Secret Scanning Maintainer

Flags