Détection des logos dans les attaques de phishing
Sébastien Goutal
—05 décembre 2019
—5 min de lecture
Un membre de votre personnel a repéré et signalé un email de phishing ? Vous avez de la chance ! Vous et votre entreprise avez ainsi pu éviter un grave danger. Malheureusement, même signalés et bloqués, les emails de phishing peuvent revenir à la charge plusieurs fois, sans changer de cible.
Dans ces conditions, il n’est pas étonnant que les utilisateurs s’agacent que leurs signalements paraissent ignorés et que les entreprises aient le sentiment que leur solution anti-phishing ne sert à rien. En réalité, ces emails ont beau paraître tous identiques pour les utilisateurs, chacun d’eux est unique pour les filtres. Pourquoi ?
Eh bien, tout simplement, car les filtres analysent en permanence le contenu des emails, comme les métadonnées, le code HTML, les pièces jointes... En revanche, ils ne voient pas les emails comme les voient les utilisateurs.
Techniques des hackers
Lorsqu’une attaque de phishing est détectée par un filtre, le contenu de l’email est analysé et sa signature, ses URL de phishing et ses domaines sont extraits et ajoutés à des listes noires. À compter de ce moment, l’email ne pourra effectivement plus être remis aux utilisateurs. Toutefois, les hackers parviennent à contourner cette protection à l’aide de l’obfuscation du code et de l’empoisonnement bayésien.
De l’intégration de texte invisible au code en passant par l’ajout d’une redirection, d’une URL raccourcie ou de liens légitimes à l’email, plusieurs options permettent en effet aux hackers de tromper les technologies basées sur les signatures et statistiques.
Voici deux exemples de techniques comparables. Dans le premier, le hacker a inséré un dialogue du film Pulp Fiction dans le code. Il s’agit de ce que l’on appelle un empoisonnement bayésien, dont l’objectif consiste à perturber les filtres basés sur des analyses statistiques, comme les filtres bayésiens :
Le deuxième exemple inclut plusieurs URL raccourcies permettant de masquer un lien de phishing :
[Document connexe] 4 stratégies utilisées par les hackers pour contourner les solutions de sécurité de l'email basées sur la reconnaissance de l’empreinte et de la réputation
Présentation des images de phishing
Afin de se faire passer pour des marques de manière convaincante, les hackers ajoutent leurs logos et images aux pages de phishing qu’ils créent. Plus la qualité de l’image est bonne, plus la page de phishing est réaliste. Voici un exemple de page de connexion Microsoft. Lorsqu’on leur demande de désigner la page authentique, la plupart des utilisateurs se trompent et choisissent la page de phishing :
Nous avons tous déjà reçu des pages de phishing mal faites, visiblement créées par des amateurs. Mais lorsque le texte et les images sont parfaitement imités, l’attaque devient plus difficile à repérer. L’email Microsoft Azure ci-dessous, détecté par Vade, constitue un exemple d’email propre, sans erreur et reprenant correctement les codes de la marque.
[Document connexe] Classement Phishers’ Favorites : Après 5 trimestres de règne, Microsoft est détrôné par PayPal
L’émergence de la manipulation des images dans les attaques de phishing
Une image peut être identifiée par une empreinte, comme un hachage cryptographique. Toutefois, la moindre modification de l’image, ne serait-ce que d’un seul bit, change totalement ce hachage. En revanche, pour un être humain, ce changement est tellement subtil qu’il en est imperceptible. En théorie, un email de phishing identifié disposant d’un nouveau logo peut ainsi sans problème passer au travers des mailles du filet des filtres qui utilisent une liste noire de hachages cryptographiques.
Par ailleurs, les hackers ont recours à diverses autres techniques pour tromper les algorithmes de Computer Vision classiques, notamment les algorithmes de mise en correspondance de modèles. Dans l’exemple ci-dessous, le hacker a inséré un logo Microsoft gris à peine visible sur un fond bleu. Les algorithmes de mise en correspondance de modèles ne gèrent pas les petites modifications de couleur ou de géométrie : cette variante du logo de Microsoft passera donc inaperçue.
Une variante du logo de Microsoft parmi tant d’autres
Une autre technique consiste à utiliser des QR codes, que l’on retrouve souvent dans les emails de sextorsion pour rediriger la victime vers une URL permettant de payer la rançon en bitcoins. Les URL pouvant facilement être analysées et extraites par un filtre de messagerie, les hackers leur préfèrent les QR codes. Ainsi, seules les technologies basées sur la Computer Vision et l’extraction de QR codes pourront extraire et analyse l’URL.
Le texte sous forme d’image est lui aussi de plus en plus utilisé dans les attaques de phishing pour éviter l’analyse des URL et la détection basée sur le code. Dans l’exemple ci-dessous, un hacker a inséré une image d’un email Apple dans le corps de son propre email. L’image est hébergée sur un site Web et associée à un lien de phishing :
Voici un email de sextorsion détecté par l’équipe de Vade en France. Comme l’exemple précédent d’Apple, cet email est en fait une image, une capture d’écran, qui vient remplacer le texte :
[e-book] Rapport Expert Focus de SC Magazine : protéger les boîtes de réception
Computer Vision et détection des images
Les algorithmes de Computer Vision basés sur les réseaux de neurones convolutifs (CNN) interprètent et voient les images comme le font les êtres humains. Le moteur de Computer Vision de Vade est basé sur deux des CNN les plus populaires du moment : VGG-16 et ResNet, ce qui lui permet de détecter les logos des marques les plus victimes de phishing. Les décisions de ces deux modèles sont combinées à l’aide d’un algorithme propriétaire pour une précision maximale. L’objectif est de renforcer la précision de la détection du phishing, d’automatiser l’activité du centre des opérations de sécurité, et d’informer les marques des attaques de phishing les concernant.
L’équipe de recherche de Vade a eu recours à un apprentissage par transfert pour affûter les modèles VGG-16 et ResNet pré-entraînés. Tout d’abord, nous avons collecté et libellé des milliers d’images manuellement. Ensuite, nous avons généré automatiquement d’autres images dans différentes configurations avec des logos, images de fond, polices, textes et thèmes de couleur différents. Enfin, les images ont été modifiées via différentes transformations : recadrage, sous-échantillonnage, floutage, modification de l’espace de couleur HDV, etc. pour permettre aux modèles de mieux prendre en compte les différentes variations possibles. Le corpus final, composé d’environ 200 000 images, a ensuite été utilisé pour affûter les modèles.
Ce processus leur apprend à reconnaître diverses techniques que les hackers utilisent pour tromper les algorithmes à la recherche d’une correspondance d’image exacte ou proche. Voici deux des images générées pour l’entraînement des modèles. Comme dans l’exemple d’email de phishing Microsoft présenté précédemment, les logos sont placés sur d’autres images pour entraîner le modèle à reconnaître un logo dans une configuration inattendue (position, fonds, présence de texte à proximité) :
L’affûtage des modèles sur un corpus spécifique d’images 2D a également montré que la détection des logos de la technologie de Vade est bien souvent plus performante que les technologies plus généralistes du même type, comme Google Vision. Par exemple, lors d’une comparaison interne avec Google Vision, le moteur de Computer Vision de Vade a détecté ces logos bien connus (encadré bleu pour Vade, encadré vert pour la référence), tandis que de manière assez surprenante, Google Vision a échoué :
L’avenir du phishing
Les attaques de phishing s’améliorent de jour en jour. Pour faire jeu égal avec les nouvelles menaces, les technologies anti-phishing doivent atteindre un degré de sophistication comparable. Vade a fait mieux que la fonctionnalité de détection de logos de l’API de Google Vision en reconnaissant davantage de logos de phishing lors des tests.
Notre moteur de Computer Vision est mis à jour en permanence à l’aide de nouvelles images et de nouveaux logos, notamment en fonction des menaces signalées à Vade et via IsItPhishing.ai, notre service gratuit permettant aux utilisateurs de vérifier en quelques secondes si une URL donnée est légitime ou non.