Détection des logos dans les attaques de phishing

Un membre de votre personnel a repéré et signalé un email de phishing ? Vous avez de la chance ! Vous et votre entreprise avez ainsi pu éviter un grave danger. Malheureusement, même signalés et bloqués, les emails de phishing peuvent revenir à la charge plusieurs fois, sans changer de cible.

Dans ces conditions, il n’est pas étonnant que les utilisateurs s’agacent que leurs signalements paraissent ignorés et que les entreprises aient le sentiment que leur solution anti-phishing ne sert à rien. En réalité, ces emails ont beau paraître tous identiques pour les utilisateurs, chacun d’eux est unique pour les filtres. Pourquoi ?

Eh bien, tout simplement, car les filtres analysent en permanence le contenu des emails, comme les métadonnées, le code HTML, les pièces jointes... En revanche, ils ne voient pas les emails comme les voient les utilisateurs.

Techniques des hackers

Lorsqu’une attaque de phishing est détectée par un filtre, le contenu de l’email est analysé et sa signature, ses URL de phishing et ses domaines sont extraits et ajoutés à des listes noires. À compter de ce moment, l’email ne pourra effectivement plus être remis aux utilisateurs. Toutefois, les hackers parviennent à contourner cette protection à l’aide de l’obfuscation du code et de l’empoisonnement bayésien.

De l’intégration de texte invisible au code en passant par l’ajout d’une redirection, d’une URL raccourcie ou de liens légitimes à l’email, plusieurs options permettent en effet aux hackers de tromper les technologies basées sur les signatures et statistiques.

Voici deux exemples de techniques comparables. Dans le premier, le hacker a inséré un dialogue du film Pulp Fiction dans le code. Il s’agit de ce que l’on appelle un empoisonnement bayésien, dont l’objectif consiste à perturber les filtres basés sur des analyses statistiques, comme les filtres bayésiens : 

Empoisonnement bayésien
Empoisonnement bayésien

Le deuxième exemple inclut plusieurs URL raccourcies permettant de masquer un lien de phishing :

URL raccourcies
URL raccourcies

[Document connexe] 4 stratégies utilisées par les hackers pour contourner les solutions de sécurité de l'email basées sur la reconnaissance de l’empreinte et de la réputation

Présentation des images de phishing

Afin de se faire passer pour des marques de manière convaincante, les hackers ajoutent leurs logos et images aux pages de phishing qu’ils créent. Plus la qualité de l’image est bonne, plus la page de phishing est réaliste. Voici un exemple de page de connexion Microsoft. Lorsqu’on leur demande de désigner la page authentique, la plupart des utilisateurs se trompent et choisissent la page de phishing :

Page de phishing Office 365 (à droite)
Page de phishing Office 365 (à droite)

Nous avons tous déjà reçu des pages de phishing mal faites, visiblement créées par des amateurs. Mais lorsque le texte et les images sont parfaitement imités, l’attaque devient plus difficile à repérer. L’email Microsoft Azure ci-dessous, détecté par Vade, constitue un exemple d’email propre, sans erreur et reprenant correctement les codes de la marque.

Email de phishing Microsoft Azure
Email de phishing Microsoft Azure

[Document connexe] Classement Phishers’ Favorites : Après 5 trimestres de règne, Microsoft est détrôné par PayPal

L’émergence de la manipulation des images dans les attaques de phishing

Une image peut être identifiée par une empreinte, comme un hachage cryptographique. Toutefois, la moindre modification de l’image, ne serait-ce que d’un seul bit, change totalement ce hachage. En revanche, pour un être humain, ce changement est tellement subtil qu’il en est imperceptible. En théorie, un email de phishing identifié disposant d’un nouveau logo peut ainsi sans problème passer au travers des mailles du filet des filtres qui utilisent une liste noire de hachages cryptographiques.

Par ailleurs, les hackers ont recours à diverses autres techniques pour tromper les algorithmes de Computer Vision classiques, notamment les algorithmes de mise en correspondance de modèles. Dans l’exemple ci-dessous, le hacker a inséré un logo Microsoft gris à peine visible sur un fond bleu. Les algorithmes de mise en correspondance de modèles ne gèrent pas les petites modifications de couleur ou de géométrie : cette variante du logo de Microsoft passera donc inaperçue.

Une variante du logo de Microsoft parmi tant d’autres
Une variante du logo de Microsoft parmi tant d’autres

Une variante du logo de Microsoft parmi tant d’autres

Une autre technique consiste à utiliser des QR codes, que l’on retrouve souvent dans les emails de sextorsion pour rediriger la victime vers une URL permettant de payer la rançon en bitcoins. Les URL pouvant facilement être analysées et extraites par un filtre de messagerie, les hackers leur préfèrent les QR codes. Ainsi, seules les technologies basées sur la Computer Vision et l’extraction de QR codes pourront extraire et analyse l’URL.

Le texte sous forme d’image est lui aussi de plus en plus utilisé dans les attaques de phishing pour éviter l’analyse des URL et la détection basée sur le code. Dans l’exemple ci-dessous, un hacker a inséré une image d’un email Apple dans le corps de son propre email. L’image est hébergée sur un site Web et associée à un lien de phishing :

Image composée de texte
Image composée de texte

Voici un email de sextorsion détecté par l’équipe de Vade en France. Comme l’exemple précédent d’Apple, cet email est en fait une image, une capture d’écran, qui vient remplacer le texte :

Capture d’écran remplaçant le texte de l’email
Capture d’écran remplaçant le texte de l’email

[e-book] Rapport Expert Focus de SC Magazine : protéger les boîtes de réception

Computer Vision et détection des images

Les algorithmes de Computer Vision basés sur les réseaux de neurones convolutifs (CNN) interprètent et voient les images comme le font les êtres humains. Le moteur de Computer Vision de Vade est basé sur deux des CNN les plus populaires du moment : VGG-16 et ResNet, ce qui lui permet de détecter les logos des marques les plus victimes de phishing. Les décisions de ces deux modèles sont combinées à l’aide d’un algorithme propriétaire pour une précision maximale. L’objectif est de renforcer la précision de la détection du phishing, d’automatiser l’activité du centre des opérations de sécurité, et d’informer les marques des attaques de phishing les concernant.

L’équipe de recherche de Vade a eu recours à un apprentissage par transfert pour affûter les modèles VGG-16 et ResNet pré-entraînés. Tout d’abord, nous avons collecté et libellé des milliers d’images manuellement. Ensuite, nous avons généré automatiquement d’autres images dans différentes configurations avec des logos, images de fond, polices, textes et thèmes de couleur différents. Enfin, les images ont été modifiées via différentes transformations : recadrage, sous-échantillonnage, floutage, modification de l’espace de couleur HDV, etc. pour permettre aux modèles de mieux prendre en compte les différentes variations possibles. Le corpus final, composé d’environ 200 000 images, a ensuite été utilisé pour affûter les modèles.

Ce processus leur apprend à reconnaître diverses techniques que les hackers utilisent pour tromper les algorithmes à la recherche d’une correspondance d’image exacte ou proche. Voici deux des images générées pour l’entraînement des modèles. Comme dans l’exemple d’email de phishing Microsoft présenté précédemment, les logos sont placés sur d’autres images pour entraîner le modèle à reconnaître un logo dans une configuration inattendue (position, fonds, présence de texte à proximité) :

L’affûtage des modèles sur un corpus spécifique d’images 2D a également montré que la détection des logos de la technologie de Vade est bien souvent plus performante que les technologies plus généralistes du même type, comme Google Vision. Par exemple, lors d’une comparaison interne avec Google Vision, le moteur de Computer Vision de Vade a détecté ces logos bien connus (encadré bleu pour Vade, encadré vert pour la référence), tandis que de manière assez surprenante, Google Vision a échoué :

L’avenir du phishing 

Les attaques de phishing s’améliorent de jour en jour. Pour faire jeu égal avec les nouvelles menaces, les technologies anti-phishing doivent atteindre un degré de sophistication comparable. Vade a fait mieux que la fonctionnalité de détection de logos de l’API de Google Vision en reconnaissant davantage de logos de phishing lors des tests.

Notre moteur de Computer Vision est mis à jour en permanence à l’aide de nouvelles images et de nouveaux logos, notamment en fonction des menaces signalées à Vade et via IsItPhishing.ai, notre service gratuit permettant aux utilisateurs de vérifier en quelques secondes si une URL donnée est légitime ou non.