Jun 30, 2023
Repenser la fiabilité : ce que vous pouvez (et ne pouvez pas) apprendre des incidents
Page d'accueil InfoQ Présentations Repenser la fiabilité : ce que vous pouvez (et ne pouvez pas) apprendre des incidents Courtney Nash discute des recherches recueillies auprès du VOID, remettant en question les pratiques standard de l'industrie pour
Accueil InfoQ Présentations Repenser la fiabilité : ce que vous pouvez (et ne pouvez pas) apprendre des incidents
Courtney Nash discute des recherches recueillies auprès du VOID, remettant en question les pratiques standard de l'industrie en matière de réponse et d'analyse des incidents, comme le suivi du MMTR et l'utilisation de la méthodologie RCA.
Courtney Nash est une chercheuse spécialisée dans la sécurité des systèmes et les défaillances des systèmes sociotechniques complexes. Elle a toujours été fascinée par la façon dont les gens apprennent et par la façon dont la mémoire influence la façon dont ils résolvent les problèmes. Au cours des deux dernières décennies, elle a occupé divers postes de rédaction, de gestion de programmes, de recherche et de gestion chez Holloway, Fastly, O'Reilly Media, Microsoft et Amazon.
QCon Plus est une conférence virtuelle destinée aux ingénieurs et architectes logiciels seniors qui couvre les tendances, les meilleures pratiques et les solutions exploitées par les organisations logicielles les plus innovantes au monde.
Prenez les bonnes décisions en découvrant comment les développeurs de logiciels seniors des entreprises précoces adoptent les tendances émergentes. S'inscrire maintenant!
Nash : Je m'appelle Courtney Nash. Je suis ici pour vous parler de repenser la fiabilité, de ce que nous pouvons et ne pouvons pas apprendre des mesures des incidents. Je suis bibliothécaire Internet des incidents chez Verica. Je suis un chercheur avec une longue expérience dans de nombreux endroits différents. J'avais l'habitude d'étudier le cerveau. Je pense que les vélos de montagne sont la technologie la plus cool que nous ayons jamais inventée.
Je suis ici pour vous parler de cette chose que j'ai créée appelée le VOID. La base de données ouverte d'incidents Verica est un endroit où les rapports publics d'incidents liés aux logiciels sont collectés et mis à la disposition de tous. Notre objectif est de sensibiliser et d’améliorer la compréhension des pannes logicielles afin de faire d’Internet un endroit plus résilient et plus sûr. Pourquoi nous en soucions-nous ? Parce que les logiciels ont depuis longtemps dépassé le stade de l'hébergement de photos de chats en ligne pour gérer les transports, les infrastructures et le matériel des systèmes de santé, ainsi que les appareils des systèmes de vote et des véhicules autonomes. Ces systèmes en ligne modernes devraient fonctionner 24 heures sur 24, 7 jours sur 7, 365 jours par an. Ces pressions accrues auxquelles vous êtes tous confrontés, combinées aux modèles logiciels de services interdépendants de plus en plus automatisés qui s'exécutent dans le cloud, ont accéléré la complexité de ces systèmes. Comme vous le savez probablement déjà, par expérience directe, lorsque ces systèmes complexes échouent, ils échouent de manière inattendue et chaotique. Nous avons tous des incidents. Oui, c'est un feu de benne à ordures avec un dragon allumant un volcan en feu. Je pense que ce à quoi vous faites face ressemble probablement davantage à Calvin et Hobbes, où il y a comme un monstre sous le lit, et vous ne savez jamais quand il va sortir.
Le point vraiment important est que l’industrie technologique dispose d’un immense corpus de connaissances banalisées que nous pourrions partager afin d’apprendre les uns des autres et de faire progresser la résilience et la sécurité des logiciels. Si vous êtes sceptique à ce sujet, je comprends, vous l’êtes peut-être. Il existe un précédent historique à cela. Ce n'est pas notre industrie, c'est une industrie différente. Dans les années 1990, aux États-Unis, notre industrie aéronautique était en crise et notre bilan en matière de sécurité était épouvantable. Des accidents importants aux conséquences graves se produisaient régulièrement. L’industrie, collectivement et à partir de la base, a décidé de se rassembler et d’essayer de faire quelque chose à ce sujet. Divers pilotes de différentes compagnies aériennes se sont réunis et ont commencé à partager leurs données sur les incidents. Ils ont commencé à partager leurs histoires et leurs schémas de ce qu’ils voyaient. Finalement, davantage de membres de cette industrie se sont impliqués, les organismes de réglementation, les contrôleurs aériens, un grand nombre de personnes se sont impliquées pour partager leurs incidents et trouver des points communs et des modèles. Grâce à cela, et évidemment à d'autres activités, le bilan de sécurité de notre industrie aérienne s'est considérablement amélioré. En fait, nous n'avons pas eu d'incident majeur jusqu'à ce que certains des problèmes liés au Boeing MAX de ces dernières années se produisent. Il est possible de le faire à partir de la base, avec l'arrivée de praticiens avant même l'arrivée des responsables de la réglementation. C'est important.