Site Reliability Engineer (SRE) - Sênior
Descrição da Vaga
Principais responsabilidades/funções da vaga:
Estratégia de Confiabilidade: Liderar técnicamente a governança global de SRE, definindo frameworks de SLIs/SLOs/SLAs que alinhem os objetivos de negócio à disponibilidade técnica em toda a organização. Arquitetura de Entrega (GitOps): Desenvolver e evoluir a arquitetura de entrega contínua, utilizando ArgoCD e EKS, visando escalabilidade para múltiplos clusters e ambientes globais, garantindo conformidade e self-healing. Governança de Infraestrutura: Estabelecer padrões de arquitetura para IaC (Terraform), criando módulos reutilizáveis de alta abstração e gerindo a política de automação via Atlantis para garantir consistência entre todas as verticais. Evolução da Observabilidade: Projetar a visão de longo prazo para observabilidade (Tracing, Logging, Metrics), integrando OpenTelemetry e Datadog para criar uma cultura de telemetria preditiva e redução drástica do MTTR (Mean Time To Recovery). Segurança e Compliance Estratégico: Atuar como autoridade técnica em IAM e segurança de rede na AWS, desenhando modelos de Least Privilege automatizados e auditáveis para infraestrutura crítica. Liderança em Incidentes e Cultura: Liderar a resposta a incidentes de escala sistêmica e institucionalizar a cultura de Post-mortems blameless, garantindo que o aprendizado técnico se transforme em mudanças no roadmap de produto. Evangelismo de Platform Engineering: Impulsionar a adoção de conceitos de Internal Developer Platform (IDP) para reduzir a carga cognitiva dos desenvolvedores e acelerar o time-to-market.Competências Técnicas:
Experiência sólida: Trajetória comprovada em ambientes de alta escala, com histórico de decisões que impactaram múltiplos times ou a arquitetura core da empresa. Visão Multicloud e AWS Especialista: Conhecimento profundo da AWS além do operacional, focando em otimização de custos (FinOps), performance de rede e arquiteturas resilientes em múltiplas zonas/regiões. Engenharia de Kubernetes: Especialista em internals do EKS, segurança (Network Policies, OPA/Kyverno) e estratégias avançadas de escalonamento (Karpenter/KEDA). Ecossistema GitOps & Automação: Domínio arquitetural de ferramentas de orquestração (ArgoCD, Atlantis, GitHub Actions), desenhando fluxos que suportem centenas de deploys diários com segurança. Desenvolvimento de Ferramental: Alta proficiência em Go ou Python para construir operadores de Kubernetes, CLIs customizadas e integrações de API que automatizam o ciclo de vida da infraestrutura. Telemetria Avançada: Implementação de padrões de mercado como OpenTelemetry e gestão estratégica do stack de monitoramento para visibilidade full-stack. Observabilidade: Gestão de SLA, SLI e SLO's em soluçõs de mercado, principalmente Datadog. Banco de Dados: Proficiência em identificação de gargalos em Clusters de Banco de Dados, como queries N+1, falta de índices e problemas relacionados.