Skip to main content

Observabilidade e Resiliência

Propósito

Esta secção documenta como o Returns Manager é monitorizado, como falhas são contidas e quais as estratégias de recuperação.

Observabilidade

PilarImplementação
LogsStructured logging (Serilog) → ELK / Azure Monitor
MétricasPrometheus + Grafana (latência, error rate, queue depth)
TracingOpenTelemetry → Jaeger / Azure Application Insights
AlertasSLA: p95 < 300 ms a 200 RPS; Availability ≥ 99.9%

Resiliência

DRP (Disaster Recovery)

  • PostgreSQL: replicação síncrona HA + backups diários com retenção 30 dias
  • Redis: Sentinel mode com failover automático (< 30 s)
  • RabbitMQ: cluster 3 nós com mirrored queues

Documentos Relacionados