Sécurité de l’IA : sécuriser les données pendant le traitement et le stockage

L’AI Security et le Privacy-enhancing computation sécurisent les données lors des traitements et du stockage. Elles font partie des 9 tendances technologiques émergentes identifiées par Cellenza dans sa Tech’Vision 2021.
Innover et Protéger
Innover
Depuis plusieurs années, l’Intelligence Artificielle (IA) occupe une place prépondérante dans nos activités quotidiennes. Le constat s’est amplifié avec l’émergence d’Internet et particulièrement des réseaux sociaux, qui sont un vecteur quasi parfait des prouesses technologiques autour de l’IA.
Citons-en quelques exemples :
- Ciblage de contenu par profil utilisateur ;
- Photos retouchées instantanément pour paraître au meilleur de sa forme ;
- Traduction automatique pour se comprendre et se connecter les uns aux autres…
Ces innovations ont séduit différentes communautés à travers le monde, notamment par leur simplicité d’utilisation mais surtout par une mise en œuvre adaptée au contexte dans lequel on se trouve. Prenons le cas des géants du numérique : tous proposent une gamme de services intelligents capables de capter une donnée quelconque, de définir quel aspect technique et fonctionnel nous intéresserait et de lancer une étude principalement statistique sur ces données. On parle alors de Machine Learning de façon générale ou de Deep Learning. On a réussi à créer des programmes auto-apprenants performants en absorbant la donnée brute.
La pureté de cette donnée, bien que représentative de la société dans laquelle on est, a révélé plusieurs anomalies d’ordre sociologique, scientifique et même philosophique. On pense notamment aux biais liés au sexe, à l’âge, à la race et à bien d’autres encore. Prenons par exemple l’éducation que nous donnons à nos enfants : est-elle le fruit d’une compilation statistique de ce que l’on constate autour de nous ? Si nous devons construire des programmes auto-apprenants sur la base du fonctionnement du cerveau humain, alors leur apprentissage et leur mise en œuvre doivent être plus nuancés que l’évidence statistique des faits. D’un autre côté, est-il convenable d’ignorer la pureté des faits ? Par pureté, nous voulons dire la donnée dans son état brut sans altération ou interprétation humaine.
L’enjeu est donc de trouver l’équilibre entre la compilation de ces faits (donnée), l’interprétation qu’on en fait ainsi que les dispositions à prendre pour apprendre de ces faits.
Protéger
L’Histoire a prouvé que chaque innovation conduit à un cadre d’application plus ou moins strict. Pour n’en citer que quelques-unes d’entre elles :
- En avion : il est interdit de fumer en plein vol, d’ouvrir les portes ou de transporter certains liquides dangereux ;
- En voiture : port de la ceinture de sécurité obligatoire, interdiction de téléphoner au volant pour réduire le risque d’accident… ;
- Sur les réseaux sociaux : il est recommandé de poster du contenu non-offusquant pour les autres au risque de le voir censuré par un modérateur.
Nous voyons bien que ces contraintes fixent un cadre de « sécurité » pour que chacun se sente protégé dans l’utilisation de ces innovations. Cela nous ramène donc à la notion de sécurité autour de l’IA qui, rappelons-le, ne cesse de voir sa cote de popularité augmenter et constitue une surface d’attaque de plus en plus étendue.
Techniquement parlant, plusieurs pistes sont à privilégier en fonction de l’état de la donnée en transit, en stockage ou en exploitation.
Lors du transit, l’établissement d’un canal sécurisé de communication de type TLS ou VPN ou encore Express Route est nécessaire pour les échanges de données. La traçabilité des échanges de données pour suivre les transmissions internes ou externes via des outils comme les Smart Contracts apporte également de la transparence.
En état de stockage, les données restent vulnérables, que la base de données soit accessible ou non via une adresse publique.
Dans cet état, la mise en œuvre de certains outils est nécessaire :
- Chiffrement au repos (Encryptions at rest) : Différentes techniques de chiffrement de la donnée sur disque peuvent aider à garantir son caractère « inutilisable » sans la bonne clé de déchiffrement.
- Offuscation des données (Data Masking) : Vous pouvez cibler du contenu sensible à masquer (offusquer) dans votre schéma de donnée. Par exemple, cacher les numéros de carte de paiement, de sécurité sociale, …
- Contrôle d’accès: Vous devez absolument définir les différents niveaux d’autorisation nécessaires pour accéder aux données. Cela vous permettra de réduire considérablement les risques de fuites de données.
- Destruction : Conformément au Règlement Général sur la Protection des Données (RGPD) concernant l’utilisation des données en Europe, vous avez l’obligation de détruire toute donnée dont vous n’avez plus besoin ou pour laquelle le propriétaire a fait la demande explicite de suppression.
Le transit et le stockage sont des états maîtrisés, à la différence de l’exploitation qui implique un calcul. L’état d’exploitation repose sur les pratiques suivantes :
- Chiffrement homomorphique ou FHE (Fully Homomorphic Encryption) : de plus en plus utilisée dans des contextes Cloud notamment, cette technique garantit que l’exploitation de la donnée et son résultat se feront sous des formes chiffrées. Par exemple, l’entreprise décide de travailler sur les salaires de ses employés et ne souhaite pas les révéler au prestataire (Cloud ou autre) travaillant sur le sujet : le chiffrement homomorphique permet de travailler sur des données chiffrées sans en altérer les propriétés mathématiques avant et après calcul. Si S était notre fonction de chiffrement, alors l’opération S(2) + S(4) = S(2+4) et cela sans que le prestataire n’ait jamais accès au contenu de S. Microsoft travaille activement sur une bibliothèque de ce type.
- Périmètre d’apprentissage : il est indispensable de toujours identifier en amont les données qui seront nécessaires pour couvrir le besoin métier. Bien entendu, il est exclu d’ouvrir toute les Data.
- Identification des biais potentiels : il s’agit sans doute de l’élément le plus complexe à mettre en œuvre, car il touche à lui seul différents domaines. On pense notamment aux biais statistiques (à la sous-représentation d’une population par exemple), aux biais sociologiques (les hommes devraient gagner beaucoup plus d’argent que les femmes, si on ne se rapportait qu’aux faits…) ou à des points de vue philosophiques (une IA qui devrait choisir quelle vie sauver entre un enfant et un adulte…).
L’essentiel à retenir sur la sécurité de l’IA
« Si j’avais demandé aux gens ce qu’ils voulaient, ils m’auraient répondu : des chevaux plus rapides. » Henry Ford
Cette pensée résume parfaitement à quel point toute innovation s’inscrit dans un long processus d’adoption technologique et sociétale.
L’IA n’échappe pas à la règle et doit s’inscrire dans cette dynamique.
- Les données apprises par l’IA sont des faits et des faits n’ont aucune sensibilité.
- Les lois de protection de la donnée définissent un cadre d’application nécessaire à l’adoption de l’IA.
- Il existe des moyens technologiques permettant de protéger la donnée telle que présentée dans les différentes lois pour en assurer la confidentialité : chiffrement au repos, chiffrement homomorphique à l’exploitation, canal de communication sécurisé, etc.
- Ne craignez pas de découvrir des biais dans vos données. Craignez les décisions prises pour atténuer ces biais.