Senior Site Reliability Engineer (SRE) - Core Messaging Infrastructure - STACKIT (m/w/d) Stellendetails

Jetzt bewerben »

Einleitungstext

Schwarz Digits schafft das technologische Fundament für digitale Entscheidungsfreiheit in Europa. Als IT- und Digitalsparte der Schwarz Gruppe entwickeln und verantworten wir einerseits die IT-Infrastrukturen für die Handelssparten Lidl und Kaufland sowie die Schwarz Produktion und PreZero. Gleichzeitig agieren wir als unabhängiger Anbieter am externen Markt, um Unternehmen in ganz Europa bei ihrer digitalen Transformation zu unterstützen. Unsere Kernleistungen bündeln wir in den Bereichen Cloud, Cyber Security, Data & AI, Communication und Workspace. Trage auch du zur digitalen Entscheidungsfreiheit in Europa bei.

Bei uns arbeitest du an der Schnittstelle zwischen Agilität und Sicherheit: Du profitierst von den schnellen Entscheidungswegen, genießt echte Gestaltungsspielräume in deinen Projekten und baust dabei auf das stabile Fundament der Schwarz Gruppe.

Wir suchen einen Senior Engineer für den Aufbau, die Skalierung und die eigenverantwortliche Betreuung des zentralen Nervensystems unserer Cloud-Infrastruktur: einer hochgradig ausfallsicheren, durchsatzstarken Messaging- und Event-Plattform. Um unser rasantes Wachstum zu unterstützen, migrieren wir aktuell auf eine echtzeitfähige Event-Driven Architecture. Diese garantiert die reibungslose Kommunikation zwischen den Control-Plane-Komponenten all unserer Produkte. Mit einer erstklassigen Developer Experience unterstützt du dabei dutzende Produktteams und befähigst sie, täglich Millionen von Events mühelos zu publizieren und zu verarbeiten.

Deine Aufgaben

Du entwirfst, implementierst und verwaltest hochverfügbare, verteilte Message-Broker-Cluster (wie Apache Kafka, Solace oder NATS) über mehrere Rechenzentren hinweg.
Du stellst die Zuverlässigkeit, Leistung und Fehlertoleranz der Messaging-Infrastruktur sicher, indem du robuste Disaster-Recovery- und Failover-Strategien implementierst und Betriebssystemkonfigurationen für eine Bereitstellung mit extrem niedriger Latenz optimierst.
Du automatisierst die Bereitstellung, Skalierung und Konfiguration von Messaging-Clustern.
Du erstellst umfassende Dashboards für Monitoring, Alerting und Logging, um den Cluster-Zustand, den Durchsatz und die Latenz zu überwachen.
Du definierst Best Practices für Anwendungsentwickler und baust eine Self-Service-Plattform auf, die es internen Teams leicht macht, ihre Integrationen eigenständig zu konfigurieren.

Dein Profil

Du bringst fundierte Erfahrung in der Verwaltung großer verteilter Systeme in der Produktion mit, idealerweise aus Bereichen wie Site Reliability Engineering oder Platform Engineering.
Du hast tiefgehende, praktische administrative Erfahrung mit Enterprise-Brokern wie Apache Kafka oder Solace und bringst Erfahrung in der Verwaltung von Infrastruktur auf Kubernetes unter Verwendung des Operator-Patterns sowie in der Verwaltung von virtuellen Maschinen mit Tools wie Ansible mit.
Du programmierst fließend in Python, Go oder Bash und hast ein starkes Verständnis für Linux-Performance-Tuning und Netzwerkprotokolle (wie Transmission Control Protocol/Internet Protocol oder Domain Name System).
Idealerweise hast du ein tiefgreifendes Verständnis von Mustern der ereignisgesteuerten Architektur (Event-Driven Architecture Patterns) und Event-Streaming-Konzepten, um beim Design skalierbarer Echtzeit-Datenpipelines zu unterstützen.
Dein Englisch, idealerweise in Kombination mit Deutsch, bildet die Grundlage für eine erfolgreiche Kommunikation in unseren internationalen, agilen Teams.

3944

Jetzt bewerben »