Site Reliability Engineer (SRE) H/F
Job Description 👨‍💻
Le/la Site Reliability Engineer est responsable de la fiabilité, de la performance, de la disponibilité et de la sécurité opérationnelle de la plateforme technique d'Exotrail.
Cette plateforme héberge l'ensemble des workloads internes de l'entreprise, incluant des workloads industriels et critiques. Issu·e d'une culture hybride entre développement logiciel et ingénierie système, il/elle automatise les opérations, conçoit l'infrastructure as code, pilote la résolution des incidents et optimise les performances en production. Il/elle agit comme lien entre développement, exploitation et métiers.
Le poste est orienté majoritairement run, avec une partie build à la marge sur des évolutions de plateforme.
Relation de travail
Relations fonctionnelles : Équipe Data, équipe IT, équipes métier, RSSI.
Relations externes : Fournisseurs cloud, éditeurs, prestataires d'expertise réseau, sécurité et cloud.
Activités significatives
Activité 1 — Exploitation des plateformes :
Opérer, maintenir et faire évoluer la plateforme technique d'Exotrail dans ses différents environnements (cloud privé, cloud public, plan de reprise d'activité). Garantir la disponibilité, la résilience et la performance des workloads, en particulier des workloads critiques. Définir et suivre les indicateurs de fiabilité (SLO, SLA, SLI). Porter l'astreinte sur la plateforme.
Activité 2 — Gestion de l’Infrastructure as Code et de l’automatisation :
Concevoir, maintenir et faire évoluer l'infrastructure as code de la plateforme. Maintenir et améliorer les pipelines CI/CD et les composants de packaging des applications. Développer des scripts et outils d'automatisation. Faire évoluer les pratiques GitOps de l'équipe.
Activité 3 — Sauvegarde, PRA et sécurité opérationnelle :
Opérer et faire évoluer la stratégie de sauvegarde et de réplication des données et le plan de reprise d'activité en lien avec le RSSI et les impératifs métiers. Mettre en œuvre les bonnes pratiques de sécurité (chiffrement, gestion des secrets, contrôle d'accès, journalisation). Mettre en place la connectivité sécurisée entre les différents environnements. Veiller à la conformité aux normes applicables en lien avec l’Officier de Sécurité et le RSSI.
Activité 4 — Observabilité, gestion d'incidents et support aux équipes :
Mettre en place et faire évoluer la stack d'observabilité (métriques, logs, traces). Piloter les incidents critiques (détection, analyse, résolution, post-mortem) et déployer les correctifs. Optimiser les performances applicatives et l'utilisation des ressources. Documenter les procédures d'exploitation et les runbooks. Accompagner les développeurs dans l'intégration de la fiabilité dès la phase de conception (shift-left) et faire monter en compétence les équipes sur les sujets plateforme.
Responsabilités exercées et champ d'actions
Le/la SRE est garant·e de la fiabilité, de la performance et de la sécurité opérationnelle de la plateforme technique d'Exotrail. Il/elle pilote l'évolution de l'infrastructure et des pratiques d'exploitation, dans un environnement hybride et critique. Son champ d'action couvre le cycle complet : conception, infrastructure as code, déploiement, opération, incidents, amélioration continue.
DiplĂ´mes requis
Master 2, Titre d'Ingénieur, Titre RNCP niveau 7 ou équivalent.
Au moins 10 ans d'expérience
Compétences professionnelles requises
Techniques
• Maîtrise approfondie de l'orchestration de conteneurs et de son écosystème
• Maîtrise de l'Infrastructure as Code (Ansible, Terraform, Helm)
• Maîtrise des pipelines CI/CD et des pratiques GitOps (écosystème Gitlab)
• Solides compétences en scripting et développement (Python, Bash, autres)
• Maîtrise des environnements Linux et Windows (écosystème hybride)
• Maîtrise des stacks d'observabilité (Grafana, Prometheus, Loki, Zabbix, Graylog)
• Connaissances des protocoles réseaux TCP/IP (IPSec, DNS, TLS, modèle OSI)
• Connaissances en sécurité opérationnelle et cryptographie (DevSecOps, SAST/DAST)
• Connaissance des environnements cloud public (Kubernetes, OpenStack, S3 etc.)
• Connaissance des bases de données appréciée (Clickhouse, Postgres, MariaDB)
• Connaissance d’un référentiel normatif appréciée (ITIL, ISO 27001)
Soft skills
• Rigueur et méthode face aux incidents, sang-froid sous pression
• Proactivité dans la détection des risques et des problèmes de performance
• Autonomie pour mener des projets techniques complexes et transverses
• Capacité à prioriser, documenter et collaborer avec des équipes variées
• Culture DevOps et appétence pour l'automatisation
• Capacité à communiquer avec les développeurs et métiers
Pédagogie et appétence pour la transmission
Notre process de recrutement 🤝
Nous nous engageons Ă recruter la bonne personne pour le bon poste, quel que soit votre parcours personnel.
Nous organisons au moins trois rencontres pour vous donner une meilleure idée de ce que c’est de travailler chez Exotrail :
1. Entretien par appel vidéo avec notre Talent Acquisition Team: vous découvrirez votre environnement de travail et en apprendrez davantage sur notre culture.
2. Entretien technique avec votre futur manager : vous en apprendrez plus sur le poste et les qualifications requises.
3. Entretien sur place avec d'autres membres de l'équipe : vous pourrez vous assurer que vous partagez la même vision et les mêmes valeurs de l'entreprise.
- Department
- Infrastructure & Quality
- Locations
- Toulouse
- Remote status
- Hybrid