Les interruptions d’activité sont coûteuses. Outre la perte de revenus, une panne peut entacher durablement la réputation d’une entreprise. C’est pourquoi les dirigeants avisés préparent des plans de reprise rapide et fluide après une perturbation. Il s’agit du plan de continuité d’activité (PCA). Cet article décrit le fonctionnement du PCA et les mesures pour en mettre un en place.
Qu’est-ce que la continuité d’activité ? Parfois appelée continuité d’activité et reprise après sinistre (CA/RA), la continuité d’activité ou continuité opérationnelle est un mélange dynamique de planification, de processus et de personnes qui travaillent ensemble pour s’assurer qu’une entreprise peut réagir rapidement à une perturbation de ses activités et continuer à fonctionner en tant qu’entreprise. Pour diverses raisons, nous avons tendance à considérer la continuité opérationnelle comme une question technologique. C’est en partie le cas. Mais elle ne se résume pas à ça.
Tout l’objectif du PCA est d’anticiper l’ensemble des risques susceptibles de compromettre la capacité d’une entreprise à fonctionner et de mettre en place des moyens d’atténuer ces risques. Les facteurs de risque incluent les catastrophes naturelles, les événements géopolitiques, les problèmes de supply chain ou de main-d’œuvre, etc.
La continuité d’activité est plus importante que jamais. Face à la prolifération des cybermenaces comme les ransomwares qui planent sur les entreprises, grandes et petites, ces dernières ont tout intérêt à se préparer à de graves perturbations. Même des événements sans aucun lien avec la cybersécurité cyber (comme la pandémie de Covid, par exemple) peuvent plonger une organisation dans le chaos si elle n’a pas préparé un plan de continuité d’activité.
Les enjeux peuvent être très importants, en particulier pour les petites structures. Selon la FEMA (Federal Emergency Management Agency), entre 40 et 60 % des petites entreprises ferment définitivement leurs portes après une catastrophe. L’agence étatsunienne a également constaté que 90 % des petites entreprises fermées pendant cinq jours au moins feront faillite dans l’année qui suit.
Les spécificités de la continuité d’activité varient en fonction de la taille et de la complexité de l’organisation, ainsi que de son profil de risque. Cependant, les éléments fondamentaux de la continuité d’activité sont les mêmes partout. Ils comprennent une évaluation des risques, une analyse de l’impact sur l’entreprise et une ou plusieurs stratégies de reprise.
La continuité d’activité commence par l’identification et l’évaluation des menaces qui pèsent sur les opérations. Cela peut sembler évident, mais le fait de déterminer comment les choses peuvent mal tourner révèle souvent des risques auxquels personne n’avait pensé auparavant. Un large éventail de menaces peut perturber les activités quotidiennes d’une entreprise, notamment :
Perturbations externes telles qu’une cyberattaque ou l’espionnage d’entreprise
Perturbations naturelles telles qu’un ouragan, une épidémie, une inondation ou un incendie
Perturbations politiques, y compris la guerre, le terrorisme et l’instabilité gouvernementale
Perturbations matérielles telles que les pénuries de matières premières ou de ruptures dans la supply chain
Perturbations mécaniques telles que la défaillance d’une machine de production, la maintenance d’un parc de véhicules ou une panne de matériel informatique
Perturbations organisationnelles, notamment le décès ou le départ d’un dirigeant clé, les fusions et acquisitions et l’expansion internationale
L’évaluation des risques doit dresser la liste des risques probables et graves, et ce, dans le détail. Il ne suffit pas de mentionner les « ransomwares » et de s’arrêter là. En effet, une évaluation des risques doit permettre d’identifier les données les plus critiques pour l’entreprise :
Données financières essentielles, telles que le grand livre et l’historique des transactions commerciales
Dossiers clients avec des informations personnellement identifiables
Dossiers des collaborateurs avec des informations personnellement identifiables
Inventaire des produits en production et en stock
Informations relatives à la recherche et au développement (R&D) en cours
Chaque entreprise est différente, de sorte qu’un manifeste des jeux de données critiques variera d’une organisation à l’autre. Sans évaluation complète des données de votre entreprise, il vous sera impossible de prendre des décisions avisées sur les éléments à protéger en priorité.
Avec votre évaluation des risques en main, vous pouvez maintenant estimer l’impact potentiel de ces menaces sur les activités de l’entreprise. La notion de probabilité est importante ici. Toutes les menaces ne méritent pas le même niveau d’attention. La lune pourrait s’écraser sur la planète Terre, mais comme ce n’est pas très probable, cela ne devrait pas faire partie de votre analyse d’impact sur l’activité (AIA).
L’objectif de l’AIA est de cerner l’ampleur des dommages qu’une menace particulière peut causer à la capacité de votre organisation à opérer. Tout d’abord, il convient d’identifier les fonctions critiques de votre entreprise. Il s’agit des opérations et des actifs indispensables à son fonctionnement. Si vous êtes comme la plupart des entreprises, vous ne pouvez pas fonctionner sans votre système de planification des ressources de l’entreprise (ERP – Enterprise Resource Planning), qui gère les transactions et les données pour les finances, les ressources humaines, l’approvisionnement, la fabrication et bien plus encore. Votre ERP sous-tend une grande partie de votre activité ; s’il tombe en panne, votre activité tombe en panne.
Une fois les fonctions critiques identifiées, l’étape suivante consiste à utiliser une méthode quantitative qui tient compte de la probabilité et du niveau d’impact. Par exemple, vous pouvez mesurer les conséquences sur une échelle de 1 à 10, en attribuant une note de 5 à une panne d’ERP d’une journée et une note de 10 à un incendie ravageur qui détruit l’ensemble de vos stocks. Cependant, si la panne d’ERP est deux fois plus probable que l’incendie, l’AIA les classera comme ayant le même impact.
Dans certains cas, l’AIA intègre également une estimation des pertes financières. Si votre entreprise génère un million de dollars de chiffre d’affaires par jour, une panne d’ERP d’une journée lui coûtera environ un million de dollars, avec ou sans atteinte à la réputation. En revanche, l’incendie d’un entrepôt pourrait représenter une perte d’un milliard de dollars. Pourtant, s’il y a 1 % de chances qu’un ERP tombe en panne et 0,001 % de chances qu’un incendie se déclare, les deux événements ont le même impact financier, selon la méthodologie de l’AIA.
Que se passe-t-il si l’un de ces risques se réalise ? Si vous jouez un rôle dans le maintien de la continuité d’activité, vous devez réfléchir à la manière de rétablir rapidement les fonctions de l’entreprise. Dans le domaine de la protection des données, on parle d’objectif de temps de restauration (RTO) et d’objectif de point de reprise (RPO). Un système ERP, par exemple, peut avoir un RTO d’une minute. Cela signifie que si une cyberattaque venait à mettre le système hors service, une instance ERP de secours rétablirait la fonctionnalité ERP pour les utilisateurs en l’espace d’une minute.
Le RPO indique jusqu’à quel moment la restauration peut être effectuée. Supposons que l’ERP ait un RPO de cinq minutes. Si l’ERP tombe en panne, l’objectif est de faire fonctionner l’instance de sauvegarde avec des données comprenant les transactions effectuées jusqu’à cinq minutes auparavant.
Plus les RTO et RPO sont courts, mieux c’est. Dans certains systèmes financiers hautement critiques, le RTO et le RPO se mesurent en secondes. Parfois, le basculement est si rapide et le RPO si court que les utilisateurs se rendent à peine compte qu’il y a eu un problème.
La continuité d’activité doit englober une stratégie de reprise pour chaque menace assez sérieuse pour mériter de figurer dans l’AIA. La stratégie doit correspondre à la menace et être suffisamment précise pour respecter les RTO et RPO prévus. Par exemple, si la base de données clients est stockée dans une baie de stockage on-prem et que les ransomwares constituent la menace la plus sérieuse, la stratégie de continuité devrait impliquer de la sauvegarder sur un système résistant aux ransomwares.
Cela peut signifier avoir des sauvegardes AWS « immuables ». Ou bien une stratégie générale, comme la règle de sauvegarde du 3-2-1, devrait être imposée pour toutes les données critiques. Avec le 3-2-1, vous conservez trois copies de vos données, dont l’une est toujours hors site. Cela peut faire partie du plan de protection des données de votre entreprise.
Par ailleurs, si le risque de catastrophe naturelle menace le plus votre base de données, l’instance de sauvegarde doit se trouver dans une région géographique qui ne sera pas touchée par le même sinistre. Un centre de données situé en Floride sera donc adossé à un site situé en Arizona, par exemple. En effet, de nombreuses stratégies de reprise d’activité prévoient l’utilisation de sites alternatifs.
Le même type de réflexion doit s’appliquer aux relations avec les fournisseurs. Par exemple, si vous fabriquez des voitures, vous ne pouvez pas vous permettre de manquer de bougies d’allumage. Si votre fabricant de bougies d’allumage subit une attaque par ransomware et ne peut rien vous livrer pendant un mois, vous avez besoin d’un fournisseur de secours qui pourra vous livrer la marchandise dans un délai prédéfini. Il s’agit d’un RTO pour bougies d’allumage, en quelque sorte.
Toutes ces délibérations déboucheront sur un schéma d’AIA tel que l’exemple simplifié ci-dessous. À chaque risque sont associées une probabilité, une estimation de l’impact financier et une stratégie de continuité. Un RTO et un RPO peuvent également être inclus.
| Risque | Probabilité | Impact financier | Stratégie de continuité | RTO | RPO |
Ransomware visant un ERP | Faible | Élevé | Sauvegarde des données dans le cloud | 1 minute | 5 minutes |
Incendie d’un entrepôt | Très faible | Extrêmement élevé | Répartition des stocks dans plusieurs entrepôts Système d’extinction d’incendie | 1 jour | N/A |
Le plan de continuité d’activité opérationnalise les stratégies de continuité et l’AIA. Sans PCA, la continuité d’activité est impossible. Seulement voilà, ce conseil plein de bon sens est loin d’être aussi répandu que ce que l’on pourrait l’imaginer. En 2020, selon le cabinet de conseil international Mercer, plus de la moitié des entreprises mondiales n’avaient aucun plan de continuité d’activité en place. Espérons pour elles qu’elles ne devront pas faire face à une catastrophe majeure.
La meilleure façon d’envisager un PCA est de le considérer comme un plan systématique qui ajoute des personnes, des processus et une structure organisationnelle à vos stratégies de continuité d’activité et les transforme en actions. Il intègre des plans et des mesures prises par des personnes et implique différents systèmes d’information. Les PCA sont importants parce qu’ils transforment l’idée de la continuité d’activité en actions cohérentes et axées sur les résultats. Les PCA sont nécessaires parce que penser à la continuité d’activité sans disposer d’un plan concret pour y parvenir ne suffit pas.
L’aspect organisationnel d’un PCA tient une grande importance. S’il est tentant de considérer la continuité d’activité comme une question technique, force est de constater que la résilience passe par une connexion des personnes à des processus et des systèmes. Le PCA pose la question suivante : « Qui prendra des mesures en cas de catastrophe ? » Puis y répond dans le détail : par exemple, si le risque X se produit, la personne A est chargée de prendre les mesures Y pour restaurer l’activité. En cas de risque Z, la personne B est chargée de prendre la mesure C pour restaurer l’activité, et ainsi de suite.
Comment le PCA prend-il forme ? Tout d’abord, quelqu’un doit décider de sa création. Cela peut sembler évident, mais c’est une étape que certaines entreprises ne franchissent pas. Ou bien elles en confient l’élaboration à une personne qui n’a pas l’autorité nécessaire pour le mettre en œuvre. Le parrainage exécutif est utile à cet égard. Quelqu’un d’assez haut placé pour allouer un budget et assigner des tâches à des personnes doit être responsable du projet, ou au moins le chapeauter.
L’étape suivante consiste à mettre en place une équipe PCA. Elle sera composée de personnes issues de différents services (sécurité physique, cybersécurité, technologies de l’information, ressources humaines et différents métiers). Par cette collaboration, les membres de l’équipe apportent leur connaissance des processus métiers critiques, de la manière dont ils doivent être priorisés pour la reprise et du déroulement de la reprise.
L’équipe élabore le PCA. Cela peut prendre du temps puisque les différents membres de l’équipe ont forcément d’autres missions à accomplir. Chacun doit donc faire preuve de patience et laisser le processus se dérouler à un rythme raisonnable. Parmi les délivrables figurent : l’AIA, les stratégies de reprise, l’attribution spécifique des différentes actions à des personnes qui comprennent parfaitement leurs rôles et leurs responsabilités.
Le processus d’élaboration du PCA comprend trois étapes supplémentaires qui peuvent faire toute la différence en cas de catastrophe, à savoir : la formation, les tests et l’actualisation du plan. Toute personne censée accomplir une tâche liée à la continuité d’activité doit bénéficier d’une formation. Le plan doit être testé entièrement et régulièrement, peut-être une fois par an. L’objectif : repérer les lacunes potentielles du plan. Les tests mettent souvent en lumière un manque de compréhension de leur rôle chez les personnes concernées, ce qui les incite à se former pour combler leurs lacunes. Par ailleurs, vu que les activités et les systèmes évoluent, une actualisation régulière du plan s’impose.
De nombreux problèmes peuvent survenir dans le cadre d’un PCA. Certains d’entre eux n’ont rien à voir avec le PCA proprement dit, mais sont tout de même importants pour sa réussite. Par exemple, l’absence de contre-mesures et de contrôles pour détecter une catastrophe avant qu’elle ne se produise peut avoir des conséquences catastrophiques. Les solutions de cybersécurité de détection des anomalies, pour ne citer qu’un exemple, peuvent faire la différence entre une panne mineure et un arrêt total de l’entreprise.
Parmi les autres difficultés liées au PCA, citons le sous-effectif ou le manque de ressources de l’équipe chargée du PCA. Il lui faut du temps et des moyens pour bien faire les choses. Une fois au travail, l’équipe peut mal évaluer l’impact sur l’entreprise et la probabilité des différents risques. Ou encore, elle peut se tromper dans la désignation des stratégies de reprise. D’où la nécessité des tests et formations pour y remédier. L’absence de mise à l’épreuve du PCA peut être dangereuse.
En matière de continuité d’activité, un certain nombre d’exemples de réussite connus témoignent de l’existence de bons PCA. Ainsi, l’université de New York s’est trouvée prête à affronter le chaos incroyable provoqué par les attentats du 11 septembre qui se sont déroulés à 2,5 kilomètres de son campus. L’université de New York avait judicieusement mis en place un plan de continuité d’activité et un poste de commandement qui lui ont permis de coordonner ses interventions d’urgence et ses évacuations avec les secours et la police. Son PCA couvrait également ses systèmes électroniques.
En cas d’échec d’un PCA, la bonne pratique consiste à rechercher ce qui n’a pas fonctionné et à préparer une action plus efficace pour la prochaine fois. Par exemple, Delta Airlines a connu une grave panne informatique en 2016. Un long retard dans la mise en service des systèmes de sauvegarde a entraîné des pertes de 100 millions de dollars, ainsi qu’une sérieuse atteinte à sa réputation. La direction a conclu que la compagnie aérienne aurait pu bénéficier d’un plan de récupération des données plus cohérent et actualisé, ainsi que des systèmes de sauvegarde correspondants, dans le cadre de son PCA.
Le département californien des véhicules à moteur (DMV) a connu un problème similaire en 2016. Lorsque les systèmes informatiques sont tombés en panne, les deux solutions de sauvegarde du DMV ont été mises hors service simultanément. Résultat, le DMV a été inopérationnel pendant plusieurs jours. Il ressort de cette expérience malheureuse que les systèmes de sauvegarde ne doivent pas partager la même source d’électricité, ce qui était le cas dans l’environnement en question.
Le PCA continue d’évoluer. Les entreprises technologiques et les esprits visionnaires proposent de nouvelles façons d’améliorer, d’accélérer et de réduire le coût du PCA. Les progrès portent sur l’automatisation des processus de continuité d’activité et l’application de l’intelligence artificielle (IA) aux stratégies de reprise. Les solutions de sécurité des données telles que Rubrik, qui réduisent l’impact des ransomwares, renforcent également la résilience en neutralisant les cybermenaces les plus graves pour la continuité de l’activité. Cependant, quelle que soit l’évolution du PCA, la clé de la réussite résidera dans l’adaptabilité et l’agilité dans un contexte économique en pleine mutation.
La continuité d’activité englobe l’évaluation des risques, l’analyse d’impact sur l’activité (AIA) et les stratégies de reprise.
Un PCA doit être mis à jour régulièrement, peut-être une fois par an. Cependant, dans une grande entreprise, des actualisations plus fréquentes sont recommandées. En cas de restructuration majeure de l’entreprise, une mise à jour immédiate du PCA s’impose également.
La restauration de données à partir d’un système de sauvegarde constitue un exemple de continuité d’activité. Si un système critique, tel qu’un système ERP, tombe en panne, un plan de continuité d’activité doit prévoir une récupération rapide de ses données et de ses fonctionnalités.