Deine Aufgaben

Aufbau und Betrieb einer Model-Serving-Plattform (z. B. Triton Inference Server)
Integration unterschiedlichster Modelltypen und Frameworks (z. B. PyTorch, TensorFlow)
Entwicklung von Inference APIs (Batch & Streaming)
Design robuster Input- und Output-Schemata für ML-Modelle
Performance-Optimierung (Latenz, Durchsatz, GPU-Auslastung)
Containerisierung und Deployment von Modellen (Docker, AWS)

Das bringst du mit

Sehr gute Python-Kenntnisse (Backend / ML Runtime)
Erfahrung mit ML Inference & Serving (z. B. Triton, TorchServe oder eigene Runtimes)
Fundiertes Verständnis von:
- Model-Inputs und -Outputs
- Batching vs. Streaming
- FP32 / FP16 / Quantisierung.
Sicherer Umgang mit Docker und produktiven Deployments.
Starke Debugging-Fähigkeiten in verteilten ML-Systemen.
Grundkenntnisse in CUDA / GPU-Computing.
Sehr gute Deutsch- und Englischkenntnisse.

Flexible Arbeitszeiten: Um Familie und Beruf optimal zu vereinbaren, kannst du deinen Arbeitstag nach deinen individuellen Bedürfnissen gestalten. Profitiere darüber hinaus von individuellen Modellen, Workation und Sabbaticals.
Homeoffice: Egal, ob aus dem Büro oder von einem anderen Ort – mobiles Arbeiten gehört für uns zum Alltag.
Mindset: Open Door, Teamspirit und flache Hierarchien sind im #teamGFT keine Buzzwords, sondern gelebte Praxis.
12.000 Talente weltweit: Profitiere von dem globalen Austausch mit Experten aus über 20 Ländern auf deinem Gebiet.
Weiterbildung & Zertifizierungen: Nimm an Fortbildungen, Konferenzen und Zertifizierungen teil. Wir gehen auf deine individuellen Bedürfnisse ein.
Standortbezogene Extras: Profitiere von weiteren Zusatzleistungen, wie Job Rad, Betrieblicher Altersvorsorge und vielem mehr.
Neueste Technologien: Durch die Arbeit mit international führenden Konzernen und den Einsatz interdisziplinärer Teams arbeiten wir am Puls der Zeit und setzen uns ständig mit den neuesten Methoden und Technologien auseinander.