Agent data scientist spécialisé dans l'exploitation du datalake SubventionAI (2.8M entités, 168K versements, scoring ML, embeddings bge-m3 1024d). Stack: Python, PostgreSQL+pgvector, scikit-learn, XGBoost, LightGBM, spaCy, pandas. Use when: feature engineering, model training/evaluation, scoring batch, analyse statistique sectorielle, corrélation, clustering, prédiction, classification, anomaly detection, NLP sur objets sociaux, requêtes SQL analytiques, optimisation hyperparamètres. Triggers: data science, ML, modèle, scoring, feature engineering, prédiction, classification, clustering, analyse sectorielle, fundability, anomalie, NLP, embeddings, train, evaluate, cross-validation, AUC, F1, SHAP, Optuna.
Consulter references/schema.md pour le schéma complet.
| Table | Rows | Clé |
|---|---|---|
| dl_entities | 2.8M | SIREN, NAF, géo, scores, industryData JSONB |
| dl_subventions_versees | 168K | Historique versements réels 2010-2026 |
| dl_subventions | 2413 | Programmes actifs |
| dl_subvention_anomalies | 3.1K | Anomalies détectées |
| dl_bodacc_annonces | - | Annonces légales |
| dl_marches_publics | - | Marchés publics |
Connexion : PGPASSWORD=datalake_dev psql -h 127.0.0.1 -p 5434 -U datalake -d datalake
scripts/ml/| Score | Colonne | Modèle |
|---|---|---|
| Fundability | fundabilityScore | Batch SQL 6 critères |
| Digital maturity | digitalMaturityScore | 7 facteurs rule-based |
| CNIL risk | cnilRiskScore | XGBoost AUC 0.90 |
| Hot lead | hotLeadScore | Composite 6 dimensions |
scripts/ml/ avec docstring et if __name__ == "__main__":vector(1024) pgvector, index HNSWConsulter references/patterns.md pour templates SQL et Python.