Pas plus de pannes, mais plus coûteuses
Selon l’Uptime Institute, les pannes de courant et l’erreur humaine sont aujourd’hui les principaux responsables des pannes de data centers.
Pas plus de pannes, mais plus coûteuses. Les taux d’indisponibilité élevés n’ont pas changé de manière significative. Une organisation sur cinq déclare avoir subi une panne « grave », voire « très grave » ( entraînant des pertes financières importantes, des atteintes à la réputation, des manquements à la conformité et, dans certains cas graves, des pertes de vie ) au cours des trois dernières années, ce qui marque une légère tendance à la hausse de la prévalence.
Selon l’enquête 2022 de l’Uptime Institute sur la résilience des centres de données, 80 % des gestionnaires et des opérateurs de centres de données ont subi un arrêt majeur au cours des trois dernières années -une augmentation marginale par rapport à la norme, qui a fluctué entre 70 % et 80 %.
Aujourd’hui, plus de 60 % des pannes entraînent des pertes totales d’au moins 100 000 USD… contre 39 % en 2019. Quant à la part des pannes qui coûtent plus de 1 million USD, elle est passée de 11 % à 15 % !
Faiblesses dans l’alimentation et le réseau
Les pannes liées à l’électricité représentent 43 % des pannes classées comme importantes ( temps d’arrêt et pertes financières ). Les incidents d’alimentation sans coupure (UPS) sont aujourd’hui les plus fréquents.
Les problèmes de réseau sont à l’origine d’une grande partie des arrêts. Selon Uptime Institute, ces problèmes ont été la principale cause de tous les incidents d’indisponibilité – quelle que soit leur gravité – au cours des trois dernières années. Les défaillances attribuées aux problèmes de logiciels, de réseau et de systèmes sont aussi en augmentation. La raison tient à la complexité de l’utilisation croissante des technologies cloud, des architectures définies par logiciel et des architectures hybrides et distribuées.
Erreurs humaines et externalisation
La très grande majorité des pannes liées à une erreur humaine impliquent des procédures ignorées ou inadéquates. Au cours des trois dernières années, près de 40 % des organisations ont subi une panne majeure causée par une erreur humaine. 85 % de ceux-ci sont dus au non-respect des procédures par le personnel ou à des failles dans les processus et procédures eux-mêmes.
Les fournisseurs informatiques externes sont à l’origine de la plupart des pannes publiques majeures. Plus les charges de travail sont externalisées auprès de fournisseurs externes, plus ceux-ci sont responsables d’interruptions très médiatisées. Ces acteurs – y compris les fournisseurs de cloud, d’hébergement, de colocation, de télécommunications – représentent 63 % de toutes les pannes signalées publiquement qu’Uptime Institute a suivies depuis 2016.
Temps d’arrêts prolongés
Les temps d’arrêt prolongés sont de plus en plus fréquents dans les blocages signalés publiquement. L’écart entre le début d’une panne publique majeure et le rétablissement complet s’est considérablement allongé au cours des cinq dernières années. Près de 30 % de ces arrêts en 2021 ont duré plus de 24 heures… une augmentation inquiétante par rapport à seulement 8 % en 2017 !
Les tendances des pannes publiques suggèrent qu’il y aura au moins 20 interruptions de service graves et très médiatisées dans le monde chaque année. Sur les 108 pannes signalées publiquement en 2021, 27 étaient graves ou très graves. Ce ratio est assez constant depuis que l’équipe Uptime Intelligence a commencé à répertorier les pannes majeures en 2016, indiquant qu’environ un quart des pannes enregistrées publiquement chaque année sont susceptibles d’être graves ou très graves.