Bedrock à la Kubecon 2022, 4ème partie : chaos, résilience, ressenti global et conclusion générale…

Bedrock à la Kubecon 2022, 4ème partie : chaos, résilience, ressenti global et conclusion générale…

Avatar for Bedrock Bedrock

Pour terminer cette série, un ou deux sujets divers que nous n’avons pas regroupé dans les trois articles précédents (les performances applicatives et la scalabilité, les performances bas niveau, le système et le réseau, la dev XP, l’outillage, la CI/CD et l’observabilité), puis une conclusion globale avec ce que nous avons retenu de cette KubeCon Europe 2022.

"KubeCon 2022 part4"

La conclusion, @ KubeCon 2022 !

Chaos Engineering / Chaos Testing pour une meilleur résilience aux pannes

C’est un des sujets sur lesquels nous avons commencé à travailler activement cette année : casser des choses dans nos clusters, dans notre plateforme, entre nos microservices.
L’idée sous-jacente est, bien sûr, que tout va casser un jour ou l’autre, donc autant provoquer du chaos nous-même, en environnement contrôlé. Nous identifierons ainsi des points sensibles de notre plateforme et pourrons les corriger, évitant ainsi des incidents, parfois majeurs, au mauvais moment.

Ce thème du Chaos Engineering est régulièrement abordé en conférences et nous étions contents de voir que nous ne sommes pas les seuls à nous interroger sur “comment” en mettre en place.
Nous sommes repartis avec quelques pistes d’outils, comme chaos mesh ou Litmus Chaos, que nous allons peut-être prototyper pour les comparer à chaos-controller que nous avons récemment expérimenté.

Au cours de la conférence, “Case Study: Bringing Chaos Engineering to the Cloud Native Developers” (vidéo) par Uma Mukkara, Litmus et Ramiro Berelleza, Okteto, nous avons pu avoir un aperçu de l’outil de chaos Litmus, sa force semblant résider dans le partage des scripts de chaos au sein la communauté.
Puis, il a été décrit une approche CI des tests de chaos visant à intégrer certains tests de chaos dans le flux de développement plutôt qu’à la fin.

Enfin, toujours sur des questions de résilience en cas d’interruption de service, dans sa conférence “Building for the (inevitable) Next Cloud Outage” (vidéo), Pavel Nikolov de Section nous a questionnés sur la manière d’être plus robuste à une catastrophe.
La question n’est pas de savoir si une catastrophe se produira, mais quand elle se produira. C’est pourquoi il est aussi préférable de disposer d’un plan de reprise après sinistre mais surtout de prévoir en amont un système d’auto-guérison permettant d’être plus résilient aux catastrophes.
Il nous a ensuite présenté un use case spécifique au réseau, nous invitant à préférer au traditionnel “DNS à la rescousse”, la mise en place de BGP (Border Gateway Protocol).

Quelques sujets divers

À travers quelques talks, nous avons jeté des coups d’œil sur des sujets sur lesquels nous ne travaillons pas réellement au quotidien — appelez ça de la curiosité intellectuelle si vous le voulez ;-)

Conclusion, KubeCon Europe 2022

Nous avons commencé à migrer vers Le Cloud, vers AWS et Kubernetes, il y a plus de quatre ans. Notre première KubeCon était à Copenhague, en 2018. Que dire, en conclusion de cette conférence annuelle ? Comment conclure ces articles ?

Aujourd’hui, les grandes idées que nous avons retenues de cette KubeCon Europe 2022, en résumant, sont les suivantes :

Et, pour finir, quelques points dont nous n’avons pas du tout ou très peu entendu parler :

"La fin d'une aventure !"

Rejoignez-nos équipes et venez vivre les prochaines conférences avec nous l’an prochain