Pannes successives chez OVH ce jeudi matin
OVH, premier hébergeur européen, a subi plusieurs pannes importantes sur l’alimentation électrique de ses datacenters et sur les liaisons optiques entre ceux-ci.
Branle-bas de combat chez OVH ce jeudi matin. L’hébergeur roubaisien -numéro un européen de l’hébergement de sites internet avec 22 datacenters dans 19 pays- a dû faire face, à partir de 07:41 à une succession de pannes importantes qui a d’abord touché l’alimentation électrique de ses datacenters de Strasbourg, puis les liaisons optiques d’interconnexion entre plusieurs de ses implantations. En conséquence, de nombreux sites web ont été inaccessibles pendant plusieurs heures.
Au départ, l’hébergeur installé à Roubaix a identifié un problème important d’alimentation à Strasbourg sur ses sites SBG1 et SBG4 ouverts en 2012 et 2013. Dans un tweet, Octave Klaba, CTO & co-founder, OVH, indique que les arrivées électriques des deux datacenters sont tombées et que les deux chaînes de groupes électrogènes se sont mises en défaut. En conséquence, l’ensemble des 4 arrivées électriques n’alimentaient plus la salle de routage.
Peu de temps après, une autre panne s’est ajoutée à la première. Le réseau optique qui interconnecte les datacenters de Roubaix et de Gravelines (nord de la France) avec les POP est également tombé. En fait, toutes les liaisons optiques 100 G de Roubaix vers TH2 (l’un des datacenters parisiens de Telehouse), Clichy, Londres, Bruxelles et Amsterdam sont tombées, a communiqué Octave Klaba. Après l’intervention d’ERDF, les serveurs ont progressivement recommencé à fonctionner en milieu de matinée. En juin dernier, une autre panne majeure avait affecté près de 50 000 sites web hébergés par les infrastructures d’OVH.
«En permanence dans une démarche d’amélioration continue…»
(Le point de vue de Bruno Fery, Head of Data Centers Services, EBRC)
° Pour beaucoup, l’incident d’OVH s’est traduit par une panne d’une demi-journée. Si certaines entreprises et organisations peuvent supporter un tel délai d’indisponibilité, d’autres pas. Cette panne ne met-elle pas en avant l’importance de l’indisponibilité et, par là même, la notion de criticité ?
«Assurément. Car qui dit criticité, dit connaissance des besoins. Or, nous le vivons au quotidien, très peu d’entreprises et organisations ont une idée précise de leurs besoins… Que voit-on ? Une course effrénée vers des offres génériques très concurrentielles. Comme dans le transport aérien, le low-cost l’emporte. Le financier a tendance à retenir l’offre économiquement la plus intéressante, laissant ensuite l’opérationnel se débrouiller en cas de problème. Ce qui, en finale, peut s’avérer fort coûteux : mécontentement des utilisateurs, perte de productivité, affaires lamentablement perdues, sans compter l’image forcément ternie…»
° EBRC s’appuie sur une infrastructure de pointe. Les systèmes et les données sont hébergés au sein de trois Data Centres certifiés Tier IV «Fault-Tolerant Design & Constructed Facility». Ces certifications font-elles la différence ?
«Oui, mais partiellement… Pour l’Uptime Institute, un Tier IV garantit un niveau de disponibilité théorique de 99,995%, soit seulement 26 minutes d’interruption de service cumulées sur une année -ou un nombre x de secondes d’interruption. Chez EBRC, si nous sommes donc particulièrement fiers d’assurer depuis 17 ans 100% de disponibilité, cela signifie aussi que nous ne nous contentons pas du niveau de disponibilité de nos Tier IV. C’est aussi une affaire de topologies, de maîtrise de celles-ci. Et donc de compétences. Ainsi, nos experts techniques sont certifiés ITIL V4 pour garantir la meilleure gestion des processus. Les équipes Data Centres Services maitrisent la norme Tier IV et plusieurs ingénieurs ont obtenu les certifications Accredited Tier Designers et Tier Specialists. Nous sommes, avec nos équipes, en permanence dans une démarche d’amélioration continue…»
° L’incident dont il est question aujourd’hui relève des infrastructures -notamment au niveau des alimentations. C’aurait pu être un incident de sécurité…
«Oui. Et là aussi les entreprises et organisations ne s’inquiètent que peu des ressources mises en oeuvre par leur prestataire. Les failles de sécurité, c’est pour les autres ! Eh non… Un bon indice est la fréquence des attaques DDoS. Mais qui s’y intéresse ?»
Voilà qu on tire sur l’ambulance, c’est petit sa.
Le T4 ne couvrira pas l’erreur humaine et l’effet dominos peut se produire même chez vous.