Redige seções científicas sobre metodologia e resultados do SciELO Scraper — metodologia de coleta, análise de cobertura, limitações, citações
Skill para comunicação científica no contexto do SciELO Scraper. Conhece o vocabulário, as limitações e os resultados típicos do projeto para redigir textos precisos.
| Termo técnico | Definição para uso em texto |
|---|---|
| PID SciELO | Identificador único de artigo no formato S + ISSN + ano + sequência |
| ArticleMeta API | API REST do SciELO para acesso estruturado a metadados via ISIS-JSON |
| Artigo AoP | Artigo Ahead of Print, disponível antes da paginação final; PID com nas posições 14-16 |
005| Fallback HTML | Estratégia secundária de extração por scraping da página HTML quando a API não retorna dados |
| Coleção SCL | Coleção brasileira do SciELO (scielo.br), com ~552.000 documentos |
| ok_completo | Extração com sucesso de título, resumo e palavras-chave em português |
| ok_parcial | Extração parcial — pelo menos um campo obtido |
### Coleta de dados
Os dados foram coletados utilizando [nome do script] v2.4,
ferramenta desenvolvida para extração sistemática de metadados
do portal SciELO Brasil (scielo.br).
**Busca:** A identificação dos artigos foi realizada por meio da
API de busca do SciELO Search, com os termos [termos] nos campos
título e resumo, limitada ao período [anos]. Foram identificados
[N] artigos.
**Extração:** Os metadados (título, resumo e palavras-chave em
português) foram extraídos em dois estágios:
1. Consulta à ArticleMeta REST API (fonte primária, cobertura ~94%)
2. Scraping HTML da página do artigo como fallback automático
**Taxa de sucesso:** [X]% dos artigos tiveram extração completa
(`ok_completo`), [Y]% extração parcial (`ok_parcial`) e [Z]%
resultaram em erro de extração.
## Análise de Discrepância
**Corpus:** [N] artigos SciELO Brasil ([ano]), termos: [termos]
### Resumo executivo
| Modo | ok_completo | ok_parcial | erro | Tempo |
|---|---|---|---|---|
| padrão (api+html) | X% | Y% | Z% | Xm |
| apenas-api | X% | Y% | Z% | Xm |
| apenas-html | X% | Y% | Z% | Xm |
### Artigos AoP
Dos [N] artigos com erro no modo apenas-api, [X]% eram AoP
(PID com `005` nas posições 14-16). Esses artigos não são
indexados pela ArticleMeta API e requerem scraping HTML.
### Conclusão
O modo padrão (api+html) oferece o melhor custo-benefício:
cobertura equivalente ao modo html com tempo próximo ao modo api.
Para incluir na seção de limitações:
ok_parcial ou nada_encontrado, independentemente de versões em outros idiomas."api+html, apenas-api ou apenas-html)