Observabilidade e Resiliência
Propósito
Esta secção documenta como o Returns Manager é monitorizado, como falhas são contidas e quais as estratégias de recuperação.
Observabilidade
| Pilar | Implementação |
|---|---|
| Logs | Structured logging (Serilog) → ELK / Azure Monitor |
| Métricas | Prometheus + Grafana (latência, error rate, queue depth) |
| Tracing | OpenTelemetry → Jaeger / Azure Application Insights |
| Alertas | SLA: p95 < 300 ms a 200 RPS; Availability ≥ 99.9% |
Resiliência
DRP (Disaster Recovery)
- PostgreSQL: replicação síncrona HA + backups diários com retenção 30 dias
- Redis: Sentinel mode com failover automático (< 30 s)
- RabbitMQ: cluster 3 nós com mirrored queues