Dans un précédant billet, nous avons évoqué l’Intelligence Artificielle et le Machine Learning, qui viennent compléter nos défenses contre les attaques par emails. Entrons aujourd’hui dans le mode d’usage de l’IA adapté à la défense : les algorithmes du Machine Learning.

Il n’est pas une solution, un éditeur ou une organisation qui aujourd’hui n’évoque l’Intelligence Artificielle (IA) et sa déclinaison la plus recherchée, le Machine Learning (ML), dans sa stratégie. Mais une fois passés les effets d’annonce, très marketing, il reste bien peu de choses, hormis des outils nommés IA qui s’apparentent plus à des solutions analytiques qu’à de l’intelligence, c’est à dire la capacité à automatiser des comportements ou des processus. Rien de cela dans la sécurité des emails, où l’IA s’impose chez les rares éditeurs qui savent la maîtriser comme la solution qui vient enrichir un arsenal vieillissant d’outils pour la lutte contre les plus grandes menaces contre les entreprises : les attaques sur les emails, malwares et phishing.

Face à un email dont le protocole est trop peu sécurisé, et à des solutions traditionnelles chargées de le protéger – qui reposent principalement sur des règles simples, des listes d’adresses et signatures d’attaques identifiées -, la défense des emails se révèle figée et difficilement évolutive. De plus, les pirates ne cessent d’améliorer leurs méthodes d’attaque. Se protéger aujourd’hui c’est à la fois être réactif, pour détecter rapidement les vagues d’attaques de plus en plus sophistiquées ; et être prédictif, afin de repérer les prémisses d’une menace et anticiper l’attaque. C’est là que l’IA et le ML prennent toute leur dimension, en complément des solutions existantes.

 

Comment fonctionne l’IA qui protège les emails

L’IA classique exploite des algorithmes, des règles et instructions souvent statistiques, qui décrivent des problématiques et intègrent la façon de les résoudre. Pour détecter et séparer les emails vérolés des emails sains, les algorithmes appliqués à la sécurité des emails exploitent les règles bien connues des solutions traditionnelles. Par ses capacités d’auto-apprentissage, le ML a la capacité quant à lui, en s’appuyant sur d’énormes volumes de données provenant des messageries protégées et traitées sur un mode Big Data, de comparer les évènements (emails ou vagues d’emails) afin de détecter les changements, en particulier ceux qui potentiellement peuvent cacher une menace. A partir de ces données, et de celles qui lui sont fournies par son administrateur, le ML va ensuite aider à la création de nouvelles règles qui vont alimenter la base de connaissance des menaces.

Dans la masse des algorithmes exploités par les rares éditeurs de solutions de protection des emails qui sont capables de les développer et de les déployer, deux modèles sont à retenir :

– Les algorithmes supervisés

Si les algorithmes de l’IA sont généralement d’une grande complexité, le principe de ce type d’algorithme se veut ‘simple’ : l’éditeur qui connaît la nature des menaces définit des modèles décisionnels, qu’il va continuer d’alimenter en entrainant l’IA à l’aide d’emails sains et d’emails correspondant à des menaces que l’on cherche à éviter. Ces données, vérifiées et validées à la main par les opérateurs, sont transformées en corpus de vecteurs de caractéristiques spécifiques de la menace à détecter, qui vont permettre de créer un modèle et de déterminer un résultat selon la classe de l’email. C’est ainsi que le ML permet d’apprendre et de reproduire la démarche de qualification des menaces. Notons que l’expertise humaine reste de mise, afin de vérifier les caractéristiques que l’on souhaite détecter, les résultats obtenus, pour veiller et superviser les algorithmes, pour travailler la précision des résultats, et pour réactualiser le corpus.

– Les algorithmes non supervisés

Ces algorithmes apprennent des données afin d’identifier les nouvelles menaces. Mails de phishing et malwares attaquent par vague, en changeant régulièrement via de petits impléments. Ceux-ci sont des modifications du contenu de l’email ou du code pour les malwares polymorphes qui suffisent souvent à tromper les outils traditionnels car la signature de l’attaque n’est pas référencée. Les algorithmes non supervisés pratiquent le clustering, ils repèrent les regroupements d’emails et les vagues de malwares par leurs ressemblances, trouvent des corrélations, détectent les outlyers, les emails qui sortent du lot. Ils aident aussi l’humain à détecter des patterns décrivant les menaces qui pourrons être exploités à l’aide d’algorithmes supervisés.

 

L’humains conserve le contrôle de l’IA

IA et Machine Learning sont des technologies qui, maitrisées, sont capables de détecter et de bloquer une attaque sur les emails dans deux dimensions : le prédictif et le réactif. Le ML via l’apprentissage automatique offre des facilités pour détecter les attaques qui ne sont pas connues, et pour ajouter de nouvelles règles. Par ailleurs, l’humain conserve le contrôle, pour qualifier et valider l’évolution des algorithmes, retravailler leurs spécifications initiales, et faire progresser l’efficacité des solutions.

La lutte contre les fraudeurs est permanente, car pendant que nous développons de nouvelles solutions pour protéger les emails, les pirates font de même pour contourner nos défenses. Avec l’arrivée de l’IA, ils cherchent désormais les failles dans l’IA, dans un cercle vicieux où le perdant c’est l’utilisateur, le destinataire des emails, et l’entreprise qui est derrière… C’est pourquoi les éditeurs qui sont vraiment engagés et compétents sur l’IA et le ML travaillent à appliquer ces technologies à plus de domaines, afin d’étendre les algorithmes à tout type de menace. Ils travaillent à la construction de corpus et à l’extraction des caractéristiques afin d’entrainer les nouveaux modèles spécialisés dans la détection de certains types de menaces. Les plus virulentes par exemple, celles qui peuvent mettre une entreprise à terre…

Pour en savoir plus, téléchargez the Gartner Research "Enhance security of  Office 365"