스킬 파일

Clean

Name: Clean
Author: noemotiovon

Validate and clean data.csv URLs via GitHub API, flag invalid/non-GitHub/mirror entries

noemotiovon0 스타2026. 4. 10.

스킬 내용

Data Cleaning & URL Validation (Step ⓪)

Validate all URLs in data.csv via GitHub API, collect repo activity metrics, and flag problematic entries for human review.

CSV file at data.csv with columns: 页签,序号,项目名称,分类,上游地址

python3 scripts/clean.py data.csv -o output/cleaned.csv --summary

This script:

Parses each row's上游地址 (upstream URL)
For GitHub repo URLs (github.com/{owner}/{repo}): calls GitHub API to validate existence, fetches open_issues_count, total PR count, fork/archived/mirror status
For GitHub org URLs (github.com/{owner}): validates org existence