Avis d’expert par Gilles Seghaier, CTO Astrachain
Si les techniques de chiffrement permettent d’assurer la confidentialité des données sensibles, la gestion des clés de chiffrement demeure complexe et onéreuse. La fragmentation de données résout le problème et permet même de mieux maîtriser ses choix en matière de stockage de données sensibles, tout en réduisant ses dépendances aux fournisseurs de cloud. Explications.
Le principal inconvénient du chiffrement tient à la gestion de la clé de chiffrement : comment et à qui la confier ? Confier cette clé au fournisseur de cloud n’a pas de sens (même si c’est souvent ce qu’il propose), car cela reviendrait à lui donner le moyen de lire les données sensibles qu’on cherche justement à lui cacher. Sur le plan de la conformité et de la sécurité, l’ANSSI et la CNIL recommandent d’ailleurs fortement de ne pas stocker les clés de chiffrement au même endroit que les données associées, ainsi qu’un certain nombre d’exigences complexes à exécuter.
La fragmentation est une réponse plus simple et plus efficace à ces problématiques. En effet, celle-ci s’appuie sur un mécanisme de chiffrement sans clé. Plus besoin de gérer le cycle de vie de la clé de chiffrement qui est éparpillée dans la donnée chiffrée, mais uniquement de gérer l’authentification forte de l’utilisateur, ce qui est beaucoup moins contraignant.
1. Préserver la confidentialité de la donnée
La fragmentation représente un gain majeur du point de vue de la confidentialité des données. Les fragments des données sensibles étant distribués entre des fournisseurs de stockage différents, chaque fournisseur ne dispose plus que d’une information parcellaire et chiffrée. Ainsi, à aucun moment l’un des cloud providers n’a accès à la donnée en clair, elle devient inexploitable pour lui et pour toute personne non autorisée ayant accès à ses infrastructures. De plus, la fragmentation évite les problématiques de vols ou d’exposition des clés de chiffrement, qui n’ont plus besoin d’être gérées par des infrastructures complexes et coûteuses.
2. Assurer la disponibilité de la donnée en minimisant les risques lors de pannes systémiques
L’algorithme de gestion de la fragmentation génère un nombre de fragments plus grand que le nombre de fragments nécessaires pour récupérer la donnée. Il fonctionne par un système de gestion de seuil à partir duquel il est possible de reconstituer la donnée sans pour autant disposer de tous les fragments, répartis dans plusieurs endroits de stockage différents.
Comme évoqué précédemment, si l’un des fragments fuite, il n’est pas possible de reconstituer la donnée à partir de ce seul fragment. À l’inverse, en cas de panne ou de défaillance de l’un des cloud providers comme cela est arrivé à plusieurs reprises avec des indisponibilités systémiques en 2021, il est quand même possible de reconstruire la donnée. Y compris dans le cas où l’indisponibilité du cloud provider est définitive (cas d’une catastrophe type incendie), les fragments manquants pouvant être reconstitués et stockés chez un autre fournisseur le cas échéant. Le choix de différents fournisseurs de cloud permet ainsi de fortement réduire le risque d’indisponibilité et de fuite de données.
3. Reconstituer rapidement la donnée en s’appuyant sur les clouds les plus rapides
L’une des idées reçues liées à la fragmentation est de penser que la donnée étant dispersée, il faut davantage de temps pour la reconstituer que si elle était chiffrée chez un seul fournisseur, ce qui n’est pas vrai. Compte tenu du fonctionnement de l’algorithme de fragmentation, il est possible de paralléliser les appels vers chacun des cloud providers et d’utiliser les fragments qui sont les premiers à répondre. Il n’est pas nécessaire de s’appuyer sur tous les cloud providers pour récupérer la donnée, mais uniquement sur les plus rapides, et tout en pouvant traiter des volumétries de données importantes.
4. Optimiser les quantités de stockage de données (réplication)
La fragmentation optimise les quantités de stockage utilisées par rapport à la duplication de données telle qu’elle est faite de manière « traditionnelle » qui multiplie le volume réel de données stockées (facteur de réplication supérieur à 2). Avec la fragmentation, la donnée n’est pas répliquée sur tous les clouds, ce qui permet d’atteindre un facteur de réplication inférieur à 2, à savoir le nombre de fragments nécessaires pour reconstituer la donnée divisé par le nombre de fragments totaux. Cela nécessite de travailler au minimum avec 3 cloud providers différents.
5. Gagner en flexibilité et réduire sa dépendance vis-à-vis des cloud providers
Répartir les fragments entre plusieurs cloud providers est également gage de flexibilité dans le choix des fournisseurs de stockage. Reste à choisir les cloud providers les plus adaptés en fonction des besoins, de la sensibilité de la donnée, de la localisation, de la réglementation vis-à-vis des typologies de données à stocker, des enjeux de sécurité ou encore de l’impact environnemental. La fragmentation des données sensibles réduit donc la dépendance vis-à-vis de chaque cloud provider, et permet de rebattre les cartes des acteurs du marché, pour une plus grande liberté dans le choix de ces fournisseurs.