Classify entities from data.csv into repo, organization, or unknown using generic hosting-platform rules + GitHub API
根据 data.csv 每行的上游地址,将条目分类为 repo / organization / unknown。
data.csv(只读,不修改)。至少包含列 上游地址,其余列原样透传。
output/data_classify.csv:原始列 + entity_type、reason。
python3 scripts/classify.py data.csv -o output/data_classify.csv --summary
unknowngithub.com/{owner}/{repo}[/...] → repogithub.com/{owner} → 调 GET /users/{owner};User/Organization 均视为组织根 → organizationgitlab.*、bitbucket.org、gitee.com、codeberg.org、atomgit.com、opendev.org、salsa.debian.org、sourceforge.net、framagit.org、git.sr.ht):
{host}/{owner}/{repo}[/...] → repo{host}/{owner} → organization/projects/{name} 或 /p/{name} → repo.git 结尾*.googlesource.com、git.*、svn.* 主机sourceware.org/git/...、ftp.gnu.org/gnu/{pkg}bioconductor.org/packages/...、*.sourceforge.io/net 项目子域名reporepo需要 GITHUB_TOKEN 环境变量(仅 GitHub 单段路径时用于 API 调用)。
output/data_classify.csv 存在且包含 entity_type、reason 列。unknown,提示运行 /classify-unknown。