Deine Aufgaben
- Aufbau und Betrieb einer Model-Serving-Plattform (z. B. Triton Inference Server)
- Integration unterschiedlichster Modelltypen und Frameworks (z. B. PyTorch, TensorFlow)
- Entwicklung von Inference APIs (Batch & Streaming)
- Design robuster Input- und Output-Schemata für ML-Modelle
- Performance-Optimierung (Latenz, Durchsatz, GPU-Auslastung)
- Containerisierung und Deployment von Modellen (Docker, AWS)
Das bringst du mit
- Sehr gute Python-Kenntnisse (Backend / ML Runtime)
- Erfahrung mit ML Inference & Serving (z. B. Triton, TorchServe oder eigene Runtimes)
- Fundiertes Verständnis von:
- Model-Inputs und -Outputs
- Batching vs. Streaming
- FP32 / FP16 / Quantisierung.
- Sicherer Umgang mit Docker und produktiven Deployments.
- Starke Debugging-Fähigkeiten in verteilten ML-Systemen.
- Grundkenntnisse in CUDA / GPU-Computing.
- Sehr gute Deutsch- und Englischkenntnisse.
Das bieten wir dir
- Flexible Arbeitszeiten: Um Familie und Beruf optimal zu vereinbaren, kannst du deinen Arbeitstag nach deinen individuellen Bedürfnissen gestalten. Profitiere darüber hinaus von individuellen Modellen, Workation und Sabbaticals.
- Homeoffice: Egal, ob aus dem Büro oder von einem anderen Ort – mobiles Arbeiten gehört für uns zum Alltag.
- Mindset: Open Door, Teamspirit und flache Hierarchien sind im #teamGFT keine Buzzwords, sondern gelebte Praxis.
- 12.000 Talente weltweit: Profitiere von dem globalen Austausch mit Experten aus über 20 Ländern auf deinem Gebiet.
- Weiterbildung & Zertifizierungen: Nimm an Fortbildungen, Konferenzen und Zertifizierungen teil. Wir gehen auf deine individuellen Bedürfnisse ein.
- Standortbezogene Extras: Profitiere von weiteren Zusatzleistungen, wie Job Rad, Betrieblicher Altersvorsorge und vielem mehr.
- Neueste Technologien: Durch die Arbeit mit international führenden Konzernen und den Einsatz interdisziplinärer Teams arbeiten wir am Puls der Zeit und setzen uns ständig mit den neuesten Methoden und Technologien auseinander.
Profil abgleichen
BEWERBEN