L’IA dans la cybersécurité : Comment les hackers aident les machines
Sébastien Goutal
—17 avril 2019
—5 min de lecture
L’intelligence artificielle (IA) est partout. Vraiment ? Selon la MIT Sloan Management Review, seule une entreprise sur 20 a largement intégré l’IA dans ses solutions. Un chiffre surprenant, dans la mesure où selon leurs dires, toutes les entreprises ont recours à l’IA. Souvent, il ne s’agit que d’un simple « IA-washing » de technologies existantes dans le but de prendre le train de l’IA en marche. Pourtant, au lieu de l’utiliser comme une ficelle marketing, les entreprises de cybersécurité utilisent l’IA cybersécurité de plusieurs manières pertinentes.
L’IA cybersécurité dans la sécurité de l’email
Pour l’essentiel du marché de la sécurité de l’email, l’IA est relativement récente. Les solutions traditionnelles, notamment les passerelles de messagerie sécurisées, sont ancrées dans le passé et continuent de se fier à des méthodes de détection de menaces basées sur la vérification de la réputation ou de l’empreinte, comme le blocage d’adresses IP et d’URL. Dans le Technology Spotlight d’IDC, commandé par Vade et intitulé « De nouvelles approches de la sécurité pour une nouvelle utilisation de l’email », Konstantin Rychkov, analyste de recherche chez IDC European Security Solutions, affirme qu’« en raison de l’adoption accrue du cloud et de la prolifération d’attaques ciblées, les lacunes des passerelles de messagerie sécurisées sont devenues évidentes ». Vu que les hackers continuent d’améliorer leurs méthodes d’attaque, les solutions de sécurité de l’email doivent adopter une approche prédictive en matière de détection des menaces. C’est possible, grâce à l’IA cybersécurité.
L’élève modèle
L’apprentissage automatique, l’un des sous-ensembles les plus prometteurs de l’IA dans la cybersécurité aujourd’hui, s’appuie sur d’énormes volumes de données pour classer et regrouper les emails. Avec ces données, il crée de nouvelles règles qui permettent une détection des menaces en temps réel. En exploitant des algorithmes à la fois entraînés (supervisés) et autonomes (non supervisés), l’apprentissage automatique est utilisé pour identifier des menaces par email inconnues qui n’ont pas encore été identifiées ou ajoutées à une liste noire :
Les algorithmes supervisés
Dans le cadre de l’apprentissage supervisé, un algorithme apprend à classer les emails en fonction des messages qui ont été signalés comme malveillants ou légitimes. L’algorithme d’apprentissage automatique calcule les caractéristiques d’un email, d’une URL ou d’une pièce jointe et est sans cesse confronté à de nouvelles données afin de pouvoir rendre son verdict, qu’il s’agisse de phishing, de spear phishing ou d’un malware. Ces caractéristiques comprennent la structure de l’email, les techniques d’obscurcissement, les redirections d’URL et les structures de pages Web.
Si certains fournisseurs de cybersécurité prétendent analyser des milliers de caractéristiques, la qualité des caractéristiques est plus importante que la quantité. Par exemple, Vade a recours à l’élimination récursive des caractéristiques pour déterminer le nombre optimal de caractéristiques pour ses algorithmes d’apprentissage automatique ; l’ajout de caractéristiques n’améliore donc pas sensiblement la précision du modèle. Pour détecter des URL et des pages Web de phishing, nous analysons actuellement 47 caractéristiques, même si ce nombre pourrait changer au fil du temps, à mesure que les attaques continuent d’évoluer.
L’expertise humaine est nécessaire pour étiqueter les données, entraîner et surveiller les algorithmes, et affiner la précision des résultats. Les modèles d’apprentissage automatique doivent être continuellement nourris avec de nouveaux renseignements sur les menaces. Étant donné l’émergence quotidienne de nouvelles menaces dans toutes les langues et dans tous les pays, l’algorithme et l'IA cybersécurité devrait idéalement absorber des données mondiales provenant de boîtes de réception des quatre coins du monde.
Les algorithmes non supervisés
Les algorithmes d’apprentissage non supervisés utilisent l’agrégation pour reconnaître des modèles, trouver des corrélations et détecter des anomalies dans les emails. L’algorithme non supervisé apprend à reconnaître les similitudes dans les emails, avant de les regrouper et de les étiqueter. Compte tenu de l’évolution constante des techniques de phishing et de spear phishing, ainsi que des malwares, l’algorithme non supervisé analyse des comportements (le contenu et le contexte des emails) pour identifier et bloquer les menaces qu’il ne connaît pas encore.
Prenons l’exemple d’un email de spear phishing ne contenant pas de lien pouvant être analysé par l’algorithme. Le traitement du langage naturel va alors se mettre à la recherche de certains comportements identifiés lors d’attaques précédentes, comme un sentiment d’urgence ou des mots ou phrases indicateurs, afin de déceler une pratique abusive. Les algorithmes non supervisés peuvent en outre détecter des anomalies, par exemple dans le cas où l’adresse email de l’expéditeur ne correspond pas à celle du modèle d’entité de l’entreprise, qui pourraient être le signe d’une usurpation d’identité ou d’un domaine voisin.
Apprentissage approfondi et vision par ordinateur
Dans les deux exemples ci-dessus, les modèles d’apprentissage automatique se concentrent principalement sur l’analyse de texte. Cependant, les auteurs d’attaques de phishing sont connus pour modifier le code HTML dans les emails ou les pages Web de phishing, en apportant des modifications subtiles aux couleurs ou à d’autres éléments visuels qui s’avèrent imperceptibles pour un humain, mais vont tromper les défenses basées sur la signature, uniquement capables d’identifier une correspondance exacte. Pour pallier ce problème, les modèles d’apprentissage approfondi déjà formés à la reconnaissance d’images sont convertis à l’apprentissage par transfert et entraînés à reconnaître des logos et autres images utilisés pour usurper l’identité de marques connues comme Microsoft, PayPal et Bank of America. En cherchant des constantes dans les images, y compris dans la couleur, le ton et la forme, le modèle de la vision par ordinateur ajoute une couche de protection supplémentaire aux modèles d’apprentissage automatique qui identifient uniquement les éléments textuels.
Ensemble, l’apprentissage supervisé et l’apprentissage non supervisé représentent une solution spécialisée de protection et d’analyse des menaces (STAP), soit un système complet de détection de menaces basée sur l’IA de cybersécurité qui surpasse les solutions de détection reposant sur la vérification de la réputation ou de l’empreinte. Selon Rychkov, « la STAP est généralement nécessaire pour assurer une protection contre le spear phishing, les ransomwares et le whaling par le biais de l’analyse comportementale, la vision par ordinateur, la détection d’anomalies, l’exploration de l’URL et de la page Web au moment du clic, ainsi que d’autres méthodes ».
Les humains et l’IA cybersécurité travaillent mieux ensemble
L’apprentissage automatique permet de détecter des attaques inconnues et d’ajouter de nouvelles règles aux algorithmes afin d’assurer leur amélioration constante. Pour être efficaces, les algorithmes doivent être sans cesse confrontés à de nouvelles données. Les administrateurs supervisent les algorithmes pour garantir un apprentissage continu et des résultats précis, tandis que les utilisateurs contribuent à la boucle de rétroaction. Lorsque des emails sont signalés comme étant malveillants ou considérés comme indésirables, ces données sont absorbées par les algorithmes d’apprentissage automatique et leur procurent de nouvelles informations, ce qui contribue à faire évoluer les algorithmes, à améliorer leur efficacité et à créer des règles automatisées pour la correction. Les remarques des utilisateurs sont également vérifiées en permanence afin d’éviter une contamination des données fournies aux modèles d’apprentissage automatique.
Ces capacités automatisées de détection et de correction des menaces fournies par l’apprentissage automatique s’avèrent également précieuses pour les équipes IT en manque de temps et de personnel. Analyser et contrer manuellement les menaces visant la cybersécurité demande énormément de temps et de nombreux professionnels de la sécurité consacrent beaucoup de temps à examiner les faux positifs signalés erronément par les filtres de messagerie. Cela se traduit par une « fatigue liée aux alarmes », une désensibilisation aux alertes de sécurité. Selon un rapport publié en 2018 par Bitdefender, 72 % des professionnels de la sécurité de l’information admettent ressentir une fatigue liée aux alarmes, ce qui peut les amener à ignorer les véritables menaces et violations en matière de cybersécurité.
Rychkov explique que « le manque de personnel de sécurité qualifié et la nature chronophage de la lutte contre l’impact des menaces par email augmentent la demande de fonctions automatisées de signalement et de neutralisation en matière de sécurité de l’email, des fonctions destinées à alléger partiellement la charge de travail ». Les algorithmes d’apprentissage automatique peuvent potentiellement réduire tant la quantité de faux positifs que le temps passé à contrer les menaces que les filtres de messagerie traditionnels n’ont pas détectées. Lorsque les administrateurs et les utilisateurs signalent des faux positifs et des faux négatifs, les modèles apprennent de leurs erreurs et progressent encore davantage.
Limites et bonnes pratiques
Aucune solution de sécurité ne peut contrer 100 % des menaces envoyées par email. Comme certains exemples notoires nous l’ont appris, les algorithmes font des erreurs et se fient en fin de compte aux humains pour leur apprendre à distinguer le bien du mal. Si un algorithme laisse passer un email indésirable, les utilisateurs finaux devraient être formés à le signaler, de sorte que l’algorithme puisse apprendre de son erreur. « Lorsque des avertissements sont enregistrés », précise Rychkov, « les algorithmes d’apprentissage automatique surveillent les réponses des administrateurs et des utilisateurs pour apprendre les comportements spécifiques de certains utilisateurs, ce qui permet de personnaliser les modèles en fonction du workflow de l’entreprise ».
L’IA dans la cybersécurité n’en est encore qu’à ses balbutiements, mais sa capacité à retenir l’information, à acquérir de nouvelles compétences et à prendre des décisions est sans pareil. Les humains fournissent les données et les algorithmes apprennent du meilleur (et du pire) de ce que nous avons à offrir.