Desenvolver, testar, revisar e explicar o pipeline analitico PySpark de clientes e pedidos em JSON neste repositorio. Use quando precisar alterar etapas em src/jobs e src/pipeline.py, investigar falhas de qualidade, ajustar agregacoes/filtros/estatisticas, gerar relatorio HTML, elevar cobertura de testes, revisar riscos de regressao, ou validar a stack com os comandos do Makefile.
Padronizar a atuacao de qualquer agente neste projeto com foco em clareza, mudancas seguras e validacao objetiva. Aplicar este fluxo para tarefas de implementacao, correcao, testes, revisao ou explicacao tecnica.
Receber e normalizar a solicitacao em uma destas intencoes:
implement-feature: adicionar ou ajustar comportamento.fix-bug: corrigir falha funcional ou de qualidade.improve-tests: ampliar cobertura e confiabilidade.review-code: analisar riscos, regressao e lacunas de teste.explain-system: explicar fluxo, modulos e impactos.Se faltarem detalhes, inferir com base no repositorio e seguir com a menor mudanca segura.
src/pipeline.py: orquestrar etapas e compor saidas (df_invalid, df_agg, , , ).df_statsdf_above_avgdf_truncatedsrc/jobs/ingestion.py: ler dados com schema explicito.src/jobs/data_quality.py: validar pedidos e classificar invalidos.src/jobs/aggregations.py: agregar pedidos por cliente.src/jobs/statistics.py: calcular media, mediana e percentis.src/jobs/filters.py: aplicar recortes acima da media e entre P10/P90.src/reporting/html_report.py: gerar relatorio HTML.src/utils/spark_session.py e src/utils/schemas.py: infraestrutura transversal.tests/unit e tests/integration: cobertura de comportamento observavel.main.py.implement-featurefix-bugimprove-testsreports/coverage.xml.review-codeexplain-systempipeline.py para os jobs.Ler e reutilizar exemplos em:
references/prompt-examples.mdLer e aplicar:
references/command-matrix.mdreferences/validation-checklist.mdAo concluir uma tarefa: