Connect with us

Technologie

Panne d’AWS : un incident de temps d’arrêt nuit aux utilisateurs de l’une des principales régions d’Amazon aux États-Unis

Published

on


Les utilisateurs d’Amazon Web Services (AWS) attendent une explication complète du géant du cloud public sur la cause d’une panne prolongée dans l’une de ses principales régions de centres de données aux États-Unis qui a débuté le mercredi 25 novembre 2020, heure américaine.

On sait que la source de l’incident des temps d’arrêt provient de la région des centres de données US-East-1 de l’entreprise et qu’elle a causé un défaut dans l’interface de programmation d’applications (API) de son service de diffusion de données en temps réel, Kinesis Data Streams (KDS).

Le problème est connu pour avoir nui à la facilité d’utilisation du nombre de services Internet de haut niveau qui comptent sur KDS au cours de l’incident, dont beaucoup ont utilisé le site de réseautage social Twitter pour se confirmer comme affectés par le problème des temps d’arrêt. L’un d’eux a dit:

« Une panne d’Amazon AWS a actuellement un impact sur Adobe Spark, de sorte que vous pourriez avoir des problèmes d’accès/édition de vos projets. Nous travaillons activement avec AWS et ferons rapport lorsque le problème aura apaisé. https://t.co/uoHPf44HjL pour le statut Spark actuel. Nous nous excusons pour tout inconvénient! – Adobe Spark (@AdobeSpark) 25 novembre 2020.

La panne a également permis de mettre en évidence les interdépendances qui existent au sein du portefeuille AWS plus large, car les problèmes rencontrés par l’API KDS sont connus pour avoir eu une incidence négative sur le rendement d’un certain nombre d’autres services AWS qui comptent sur elle pour fonctionner.

Les pages d’état du service cloud de la société font référence à d’autres « services dépendants » touchés par la panne, qu’AWS a reconnue pour la première fois vers 2h00 GMT le jeudi 26 novembre.

Par exemple, les répondants au flux Twitter de support AWS ont signalé des problèmes avec son offre de construction de code et de test, Code Pipeline, son service de surveillance de l’infrastructure, Amazon Cloudwatch, et – à un moment donné pendant la panne – la page d’état du service n’était pas non plus disponible.

Au moment d’écrire ces lignes, le tableau de bord de l’état du service AWS a confirmé que la compagnie avait résolu le problème et que le service avait été rétabli dans toutes les parties touchées du portefeuille d’AWS, mais aucun autre détail n’a été donné pour le moment sur les circonstances qui ont mené à la panne.

« Nous avons identifié la cause profonde de l’événement Kinesis Data Streams et avons pris des mesures immédiates pour prévenir la récurrence. Kinesis et CloudWatch fonctionnent normalement », indique un communiqué sur la page statut du service AWS, publié peu après 9h00 GMT aujourd’hui.

Liz Beavers, geek en chef au fournisseur de logiciels de surveillance informatique SolarWinds, a déclaré que l’ampleur de la panne suggère que les stratégies de gestion des pannes d’AWS laissent beaucoup à désirer.

« En l’aucun cas de stratégies solides de gestion des incidents et des problèmes, nous voyons des pannes généralisées avec un impact élevé comme celui d’aujourd’hui d’AWS », a-t-elle déclaré. « Avec de nombreuses unités et clients différents interconnectés via la plate-forme AWS, il est crucial que les partenaires d’Amazon aient une stratégie de bureau de service informatique pour rationaliser et résoudre les incidents répétés, qui se produisent généralement avec une panne informatique importante comme celle-ci.

« Une partie de la réponse d’un bureau de service stratégique à une panne est également d’équiper les équipes it d’un canal de communication singulier pour faire connaître le problème connu dans l’ensemble de l’organisation. Non seulement cela permet de contextualiser l’impact complet du problème, mais il permet à l’IT de dépanner plus efficacement et, dans certains cas, de publier de la documentation pour les solutions de contournement potentielles.

Mike Kiersey, technologue principal chez Boomi, fournisseur de plateformes d’intégration en tant que service (PaaS) appartenant à Dell Technologies, a déclaré que l’incident met en évidence à quel point une grande partie de l’économie numérique dépend de la nécessité de diffuser des données en temps réel.

« Les questions qui touchent Kinesis soulignent la nécessité absolue d’être en mesure de traiter et de gérer les données en temps réel », a-t-il déclaré. « Si le flux de données cesse de fonctionner, les retombées peuvent être énormes, en particulier pour les fournisseurs de cloud.

« La gestion des données en temps réel se résume à une intégration et à un suivi efficaces, ce qui permet une transition transparente vers un réseau de tissus de données plus modernisé. En ayant une plate-forme intégrée réactive, les points de données deviennent plus accessibles, agiles et transparents pour comprendre comment les applications communiquent.

Kiersey a ajouté : « Les organisations doivent réfléchir à la façon dont elles sont en mesure d’architecture et d’intégrer la plate-forme de streaming dans le tissu central de leur architecture d’entreprise, unie par une gestion maîtrisée des données qui a le potentiel de franchir les frontières départementales et géographiques. »



Click to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tendance