1. Disponibilidade e pontos únicos de falha
O primeiro passo é identificar serviços críticos, dependências, links, servidores, bancos, firewalls e integrações sem redundância. Ambientes maduros sabem o que falha primeiro e qual serviço será impactado.
2. Observabilidade e resposta
Monitoramento precisa mostrar saúde de serviço, não só CPU, memória e disco. Avalie dashboards, alertas, severidade, escalonamento, histórico de incidentes e tempo de resposta.
3. Identidade, acesso e segurança
Active Directory, VPN, firewall, regras antigas, privilégios excessivos e ausência de logs são pontos recorrentes de risco. Uma revisão deve separar exposição imediata de melhorias estruturais.
4. Backup e recuperação
Backup sem restore testado é apenas expectativa. O diagnóstico deve avaliar RPO, RTO, retenção, relatórios, cópias externas, testes e aderência ao impacto real do negócio.
5. Automação e rotinas manuais
Rotinas repetitivas, triagens manuais e notificações informais são oportunidades para automação com governança. O objetivo é reduzir erro humano sem criar workflows frágeis.