Connect with us

Technologie

Comment atteindre la résilience – la trinité moderne de disponibilité

Published

on


Il y a quelques années, le système informatique s’est concentré sur la performance et de nombreux articles, produits et efforts ont été concentrés sur ce domaine. Quelques années plus tard, l’accent est mis sur la haute disponibilité (HA) de matériel et de logiciels et toutes les autres machinations qu’ils impliquent. Aujourd’hui, l’accent est mis sur la (cyber) sécurité.

Les limites de ces environnements discrets se sont maintenant brouillées sous le titre de résilience, dont les principales composantes sont les suivantes :

  1. Conception normale d’HA, redondance, et ainsi de suite, plus récupération normale des pannes non critiques. Cela s’applique au matériel et aux logiciels. Les facteurs humains (syndrome du « doigt gras » et malveillance délibérée) sont des causes extrêmement fréquentes d’échec.
  2. Violations de la cybersécurité de toutes sortes. Pas de défaillances du système dur ici, mais laisser un système compromis en ligne est dangereux. Cette zone a donné naissance à l’expression « résilience à la cybersécurité ».
  3. La reprise après sinistre (DR), une discipline qui n’est pas en évidence, par exemple, en mai 2017 lorsque WannaCry a frappé le NHS britannique.

Vous ne pouvez pas choisir laquelle de ces trois bases que vous couvrez – c’est tout ou rien.

Dans la boxe, la résilience en termes simples signifie la capacité de récupérer d’un coup de poing (récupération normale) ou knockdown (récupération après sinistre). Cependant, il a des connotations au-delà de cela, dans la mesure où le boxeur doit se préparer via une formation difficile, un plan de combat et d’entraînement pour éviter le knockdown et, si cela se produit, il devrait être assez en forme pour récupérer et rejoindre la mêlée assez rapidement pour battre le compte de 10 secondes – pénalités financières dans notre monde.

La Financial Conduct Authority définit un système financier résilient comme un système qui peut absorber les chocs, plutôt que d’y contribuer. La rapidité et l’efficacité des communications avec les personnes les plus touchées, y compris les clients, est un élément important de la réponse globale de toute entreprise à une perturbation opérationnelle.

« Le secteur financier a besoin d’une approche de gestion des risques opérationnels qui inclut des mesures préventives et des capacités – en termes de personnes, de processus et de culture organisationnelle – à s’adapter et à se rétablir lorsque les choses tournent mal », peut-on lire.

Gartner définit la résilience d’une manière plus large, capable de différentes interprétations, est un ensemble de techniques qui permettent aux personnes, aux processus et aux systèmes d’information de s’adapter à l’évolution des modèles. C’est la capacité de modifier les opérations face à l’évolution des conditions d’affaires. Dans le langage de la boxe, cela signifierait un changement de tactique de combat.

Pour résumer ces points de vue, le travail clé en main est de maintenir vos opérations en cours d’exécution avec la même qualité de livraison de la manière que les clients veulent. Vous interprétez ce principe en fonction de votre entreprise et de vos clients.

Quand une panne n’est-elle pas une panne?

Il s’agit d’une question valable à vous poser si vous comprenez les accords de niveau de service (ASL). Les SLA spécifient les propriétés que le service doit offrir en dehors d’une « clause de disponibilité du système ». Ces exigences comprennent généralement les temps de réponse, les heures de service (pas les mêmes que la disponibilité) à divers moments du calendrier, par exemple, les périodes d’activité à volume élevé telles que les grandes vacances, les promotions de produits, le traitement de fin d’année, et ainsi de suite.

Beaucoup de gens pensent à une panne de système comme un échec complet – un knock-out, en utilisant notre analogie antérieure. En réalité, un système qui ne fonctionne pas comme prévu et défini dans une SLA amènera souvent les utilisateurs à considérer le système comme « vers le bas » parce qu’il ne fait pas ce qu’il est censé faire et entrave leur travail.

Cela conduit à la notion d’une panne logique (dans la boxe, un compte permanent forcé) où, physiquement, tout est en état de marche, mais le service fourni n’est pas acceptable pour une raison quelconque. Ces raisons varient selon l’étape à laquelle les demandes ont atteint :

  • Au début du nouveau service, l’interface utilisateur (INTERFACE) est totalement hostile et étrangère aux utilisateurs de l’application. Ceci si souvent le résultat d’une interface utilisateur conçue sans l’entrée de l’utilisateur ou la connaissance du processus d’affaires derrière elle.
  • Lors de l’initiation, il ne cartographie pas complètement la fonction de la fonction métier qu’il traite sur l’application livrée, encore une fois souvent le résultat de la non-implication de l’utilisateur.
  • Pendant la course normale, la performance se dégrade pour une raison quelconque, ce qui entraîne des effets tels que la perte ou la productivité jusqu’à être totalement inutilisable. La perte de performance peut avoir un effet désastreux sur les systèmes de vente sur le Web, par exemple.

Des études ont montré que les personnes qui utilisent un site Web pour commander des marchandises ont une attente mentale, souvent non quantifiée, de temps de réponse interactif qui, s’ils sont dépassés, les amène à quitter le site. Dans le pire des cas, cela peut signifier que l’acheteur obtient les marchandises d’uner site et, pire encore, ne jamais revenir.

L’attente inconsciente de temps de réponse des acheteurs varie de quelques centaines de millisecondes à quelques secondes, selon l’étude impliquée. Incidemment, la mauvaise conception de l’interface utilisateur est une autre panne logique, mais cela et d’autres aspects des pannes sont trop détaillés (et gore) pour couvrir ici.

Domaines de résilience

Résilience, en termes simples, signifie la capacité de récupérer d’un knockdown, d’utiliser l’analogie de la boxe une fois de plus. Mais il a des connotations au-delà de cela, dans la mesure où le boxeur doit se préparer par la formation difficile et l’entraînement pour éviter le knockdown et, si cela se produit, il devrait être assez en forme pour récupérer, se mettre à ses pieds et continuer à se battre. Le scénario informatique implique, entre autres choses:

  • « Fitness » grâce à la conception, à la mise en œuvre et au suivi rigoureux du système, ainsi qu’à la formation du personnel en gestion des risques et des crises.
  • Sauvegarde et récupération normales après des pannes ou une perte de données non due à des activités criminelles ou à des dommages graves au système.
  • Outils et techniques de cybersécurité pour contrer les attaques de logiciels malveillants, externes et internes. À mon avis, l’architecture internet actuelle, intrinsèquement ouverte, n’est pas adaptée pour endiguer la marée des logiciels malveillants, en particulier dans les domaines en pleine croissance de l’informatique mobile et de l’Internet des objets (IoT) dispositifs. Les appareils IoT devraient compter 22 milliards d’ici 2021, dans de nombreuses industries, et malheureusement, la sécurité n’était pas la principale caractéristique de leur conception et de leur fabrication et ne l’est toujours pas, dans de nombreux cas. La sécurité est notoirement difficile à moderniser.
  • DR lorsque le système primaire est totalement incapable de fonctionner pour une raison quelconque et la charge de travail doit être situé et accessible à partir d’installations – système et hébergement (souvent oublié) – ailleurs. L’emplacement d’un site secondaire de RD est important parce que certaines catastrophes naturelles affectent de grandes zones et un système secondaire sur place ou à proximité peut être rendu inutile par la même catastrophe qui a frappé la primaire. D’autre part, les attaques de cybersécurité sont neutres sur le plan géographique. Ces facteurs impliquent l’expérience, la planification et le bon sens.
  • Les méthodes de suivi, de gestion et d’analyse pour transformer les données en informations afin de soutenir les objectifs de résilience d’une entreprise et de les améliorer s’étendent à l’écosphère de résilience. Si vous ne pouvez pas le mesurer, vous ne pouvez pas le gérer.

La figure 1 (ci-dessous) est une simple représentation de la résilience et la principale chose à retenir est qu’il ne s’agit pas d’un exercice de sélection – vous devez tous les faire pour fermer la boucle entre les trois domaines contribuants à la planification de la résilience et aux activités de rétablissement.

Compte tenu de la série d’échecs des systèmes informatiques des services financiers et autres au cours des dernières années, il est évident que, dans le, les leçons apprises ont été largement oubliées.

La cybersécurité est une nouvelle menace dont le monde des affaires doit être conscient et prendre des mesures, ne suivant pas le dicton de Mark Twain : « Tout le monde parle de la météo, personne ne fait rien à ce sujet. »

Le facteur clé est de couvrir toutes les bases de « résilience » à un niveau correspondant aux besoins de l’entreprise. Il ne s’agit pas d’un type de menu « hoisissez n parmi M » de choix – il est tout ou rien pour une résilience optimale.

Figure 1 : Composantes de résilience

Qu’est-ce qui doit être résilient?

Une bonne question, à laquelle la réponse est probablement tout ce qui peut arrêter ou entraver un service. Voici plusieurs exemples :

  • Périphériques serveur et périphériques, en particulier les périphériques de stockage.*
  • Logiciel – application et système.*
  • Défaillance des installations physiques – pièces, alimentations, gicleurs, etc.
  • Réseaux et ses périphériques – appareil mobile, IoT, etc.*
  • Personnes – nombres, compétences, problèmes de doigts, engagement.*
  • Méthodes et systèmes de sauvegarde et de récupération (gestion de la résilience).*
  • Installations dr (défaillance complète du site primaire).*
  • Installations de sécurité à travers les entités ci-dessus marqué * et y compris le cryptage au repos et en vol.

La loi de Lusser montre que les entités opérant en parallèle (unisson) offrent une disponibilité plus élevée que celles des séries. Voir Wikipedia pour les mathématiques simples de cela.

Pour étirer un point un peu, je pense que la résilience sera renforcée en reconnaissant l’aspect « ront » des facteurs affectant la résilience et devrait fonctionner en tant que tel, même en mode équipe virtuelle à travers les différentes équipes impliquées. Cela nécessite une certaine réflexion, mais une mentalité de « salle de guerre » pourrait être appropriée.

Figure 2 : Résilience et loi de Lusser

Outils et méthodes

Il existe des dizaines de méthodes et de technologies pour « éserci » les zones où les vulnérabilités se cachent avant, pendant et au-delà des trois domaines indiqués dans la figure 1. Voici quelques sujets de résilience :

Conception ha

Il existe de nombreuses façons de « éserci » les systèmes pour les rendre plus résilients, mais ils sont trop détaillés pour couvrir ici. Les autres parties du triumvirat – la récupération après sinistre et la cybersécurité – dépendent des exigences d’une organisation et sont essentiellement un « exercice de tricot ».

Cybersécurité

Il existe un grand nombre de façons de protéger vos données, une attaque sur laquelle peut causer une panne ou faire le propriétaire de le prendre vers le bas pour la sécurité. Ces méthodes sont trop nombreuses pour être esquissées ici, mais je vais en mentionner une – le chiffrement – qui, selon IBM, représente un domaine de sécurité clé. Seulement 2,8% des attaques sont réussies contre des systèmes avec des données chiffrées.

Récupération après sinistre

Encore une fois, une grande zone à couvrir, mais une fois de plus un message clé. La distance que vous allez dans la configuration d’un site de récupération après sinistre dépend du nombre d’applications suffisamment importantes pour nécessiter des systèmes élaborés. Ceci est décidé par une analyse d’impact d’activité d’échec entre l’entreprise et l’informatique, partie de la planification de continuité d’activité.

Comme toute activité majeure, les résultats de tout plan de résilience doivent être examinés et des mesures correctives doivent être prises. Cela nécessite un environnement où les paramètres relatifs à la résilience sont mesurables, enregistrés, examinés et appliqués. Il ne s’agit pas simplement d’une activité de surveillance parce que la surveillance est passive; la gestion est active et proactive.

Gestion = Suivi + Analyse + Examen + Action

Pourquoi la résilience est la responsabilité de l’informatique

Je trouve que les fournisseurs et certaines organisations divisent souvent les composantes de la résilience en différents départements ou fonctions, en particulier la cybersécurité ou HA. Malheureusement, les systèmes ne peuvent pas vivre seuls, mais seulement dans le développement et le fonctionnement synergiques.

Ils doivent être examinés ensemble, d’autant plus qu’il y aura des domaines où les changements apportés à l’une de ces entités peuvent nuire à une autre entité, imposant ainsi la gestion du changement comme discipline corollaire. Cela devrait être en place de toute façon dans un site bien géré.

La résilience, comme un vêtement sur mesure, est une chose personnelle et il est peu probable que le fournisseur d’outils en saura plus que vous sur votre entreprise et ses vulnérabilités. Si vous pensez que les outils feront tout le travail pour vous, vous vous leurrons.

Votre impression de résilience peut maintenant être: « C’est un gros travail. » Oui, il est, mais un gros problème implique généralement un travail acharné pour résoudre ou du moins l’atténuer. Si vous pensez qu’il est coûteux d’assurer la résilience, essayez plutôt d’échouer fréquemment et considérez les sanctions en cas d’échec imposées par les organismes de réglementation, en particulier dans le domaine financier.

Dans la sécurité informatique, une vulnérabilité est une faiblesse qui peut être exploitée par un acteur de la menace, comme un attaquant, pour effectuer des actions non autorisées au sein d’un système informatique. Cependant, dans notre quête de résilience, dont la vulnérabilité est son antithèse, nous devons étendre cette définition pour couvrir les deux autres éléments de la résilience.

Dans le cas de HA, les vulnérabilités incluent le taux d’échec inhérent des composants matériels et logiciels, leur configuration (série si parallèle), l’environnement et de nombreux autres facteurs, y compris l’erreur humaine et la vindicte.

Dans le monde de la RD, les vulnérabilités dans les systèmes primaires sont à nouveau nombreuses et, en théorie, s’appliquent également au site DR, mais la probabilité que les deux sites subissent simultanément une panne catastrophique est extrêmement faible, en supposant que l’emplacement de la RD et d’autres facteurs sont bien choisis.

Par exemple, si vous avez choisi de les poser tous les deux sur une ligne de faille géologique, vous demandez des ennuis, de la même façon dans les zones inondables ou d’ouragan.

Assurer une résilience optimale des systèmes n’est pas une situation « une solution qui convient à tous », mais une recherche plutôt longue de vulnérabilités qui peuvent affecter vos systèmes (s) dans chaque domaine, et il n’est pas non plus « onner un essai et voir comment il se pas » – la technique « rûler vos bateau » si elle échoue. Non, il a besoin d’une analyse d’impact de défaillance de composant où chaque impact est tracé à quels aspects commerciaux sont compromis ou échouent si un composant particulier cesse de fonctionner.

Si vous pensez que les fournisseurs informatiques peuvent vous vendre des produits qui donnent la réponse, vous vous leurrons. Comme l’a dit Sir Winston Churchill, en paraphrase : « Tout ce que je peux offrir, c’est du sang, de la sueur et des larmes. »

Terry Critchley est l’auteur de trois livres : services informatiques à haute disponibilité, services informatiques haute performance et making it in IT. Il peut être contacté à [email protected]

Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance