Site Reliability Engineer (SRE) - On-Premises Infrastructure and Operations

ZABEL Germany
Remote
Apply
AI Summary

We are seeking a Site Reliability Engineer to ensure the stability, security, and auditability of complex on-premises infrastructures in government data centers. The ideal candidate will have experience with Kubernetes, GitOps, and security architecture.

Key Highlights
Ensure stability, security, and auditability of complex on-premises infrastructures
Implement and manage Kubernetes clusters in government data centers
Develop and maintain GitOps pipelines and observability stacks
Key Responsibilities
Technical operation and platform responsibility
Installation, operation, and hardening of Kubernetes clusters in government data centers
Implementation of observability stacks and incident response
Technical Skills Required
Kubernetes GitOps Helm/Kustomize Observability Incident Response Security Architecture
Benefits & Perks
Annual salary: 110,000-160,000 EUR
100% remote work
Home office budget and top equipment
30 days of vacation
Nice to Have
Knowledge of government IT structures
Certifications like CKA/CKAD, ISO 27001, CISSP, or GDPR Practitioner

Job Description


Site Reliability Engineer (m/w/d) – Fokus Behördeninfrastruktur & Einsatzbetrieb

Gehalt: 110.000–160.000 € jährlich (je nach Level L3–L4)

Standort: 100% Remote

Arbeitsmodell: Vollzeit

Sprachen: Deutsch (C1+), Englisch (C1+)

Bereich: SRE, Kubernetes on-prem, GitOps, Security, Compliance

Sicherheitsanforderungen: EU/NATO-Staatsbürgerschaft


Über das Unternehmen:

Für ein innovatives Technologieunternehmen, das kritische Systeme für staatliche Sicherheitsbehörden betreibt, suchen wir eine:n Site Reliability Engineer (m/w/d) mit echter operativer Stärke.

In dieser Rolle stellst du die Stabilität, Sicherheit und Auditfähigkeit komplexer On-Premises-Infrastrukturen sicher, direkt in den Rechenzentren deutscher und europäischer Behörden.

Du arbeitest mit modernster Technologie, trägst Verantwortung für hochverfügbare Plattformen und hast gleichzeitig die Möglichkeit, echte Wirkung zu entfalten. Wenn du operative Exzellenz liebst und gerne dort arbeitest, wo Zuverlässigkeit zählt, bist du hier genau richtig.


Deine Aufgaben:

Technischer Betrieb & Plattformverantwortung

  • Installation, Betrieb und Härtung von Kubernetes-Clustern in behördlichen RZs
  • Aufbau und Pflege von GitOps-Pipelines (Argo CD/Flux), Helm/Kustomize, Artifact Registries
  • Implementierung von Observability-Stacks (Prometheus, Grafana, Loki, OpenTelemetry) inkl. SLA-gerechter Dashboards und Alerting

Incident Response & Einsatzbetrieb

  • Vor-Ort-Einsatz als Incident Commander bei Störungen und sicherheitskritischen Situationen
  • Koordination mit IT-Security, internen Engineering-Teams und juristischen Stellen
  • Durchführung von Root-Cause-Analysen und Erstellung gerichtsfester Incident-Reports

Security, Compliance & Audits

  • Netzwerksegmentierung, TLS/mTLS, Keycloak/OPA-Policies, Vulnerability-Management
  • Backup-, Restore- und DR-Prozesse unter gesetzlichen oder gerichtlichen Vorgaben
  • Erstellung von Audit-Evidenzen, Runbooks, DPIA-Dokumentation und chain-of-custody-Nachweisen

Training & Zusammenarbeit

  • Schulung von Administrator:innen und Analyst:innen im Betriebs- und Störungsmanagement
  • Enge Abstimmung mit Plattform-, Security- und Infrastrukturteams


Dein Profil:

Technische Skills

  • 5–8 Jahre Erfahrung als SRE/DevOps Engineer, idealerweise mit On-Call-Verantwortung
  • Tiefes Know-how in Kubernetes (on-prem/hybrid), GitOps, Helm/Kustomize, Automatisierung (Ansible, Terraform)
  • Souveräner Umgang mit Observability, Incident Response und Sicherheitsarchitekturen
  • Erfahrung in regulierten Umgebungen (öffentlicher Sektor, Finance, Healthcare o. Ä.)
  • Starke Skriptkenntnisse (Bash, Python) und sichere Handhabung von CI/CD in eingeschränkten Netzwerken
  • Sehr gute Kenntnisse in IAM, Secrets Management, TLS/mTLS, SIEM-Integration


Persönliche Eigenschaften

  • Verantwortungsbewusst, sicherheitsbewusst, absolut vertrauenswürdig
  • Klare Kommunikation – auch unter Stress – und strukturierte Arbeitsweise
  • Präzise, belastbare Dokumentation in Deutsch und Englisch
  • Freude an operativen Einsätzen und enger Zusammenarbeit mit Behörden


Nice-to-have

  • Kenntnisse behördlicher IT-Strukturen
  • Zertifizierungen wie CKA/CKAD, ISO 27001, CISSP oder GDPR Practitioner
  • Erfahrung mit digitalen Beweis- und Logging-Systemen


Das wird geboten:

  • Remote-first in Deutschland – mit regelmäßigen Team-Events in Berlin
  • Home-Office-Budget & Top-Equipment
  • 30 Tage Urlaub für echte Erholung
  • Mission-getriebene Rolle mit hoher gesellschaftlicher Relevanz
  • Stabile, langfristige Partnerschaften im Public Sector
  • Moderne Tooling-Landschaft (Kubernetes, GitOps, Observability)
  • Field-Stipendien, hochwertige Ausrüstung und Compliance-Trainings
  • Hoher Einfluss auf Stabilität, Sicherheit und Qualität kritischer Systeme
  • Ein Umfeld, das Professionalität, Verantwortung und Hands-on-Mentalität ernst nimmt


Interesse geweckt?

Wenn du operative Verantwortung übernehmen willst – und Teil eines Teams sein möchtest, das kritische Infrastrukturen für Behörden stabil, sicher und auditfest betreibt – dann freue ich mich auf deine Bewerbung.


Kontakt:

Patrick Hofmann

Consultant | DevOps & Cloud | Permanent Solutions

📧 p.hofmann@zabelglobal.com

📞 +49 170 6540025

🌐 www.zabelglobal.com


Similar Jobs

Explore other opportunities that match your interests

Visa Sponsorship Relocation Remote
Job Type Full-time
Experience Level Associate

brink group

Germany

DevOps Engineer

Devops
1d ago
Visa Sponsorship Relocation Remote
Job Type Contract
Experience Level Mid-Senior level

zdf sparks

Germany

Cloud Engineer

Devops
4d ago
Visa Sponsorship Relocation Remote
Job Type Full-time
Experience Level Associate

Akkodis

Germany

Subscribe our newsletter

New Things Will Always Update Regularly