Actualisation de notre technologie de détection des logos

Les scanners Web analysent des dizaines d’éléments pour déterminer si une page Web est une page de phishing. Ils s’intéressent ainsi à l’URL, à la structure de la page et à son code CSS. Toutefois, nombre d’entre eux ne sont pas en mesure d’analyser les images. La détection des logos est pourtant un élément clé contre le phishing.

Entraînée à voir les pages Web et les emails comme des êtres humains les verraient, la technologie Computer Vision de Vade analyse les images pour en extraire les éléments liés aux attaques de phishing, à savoir les logos des marques, les QR codes et les contenus textuels suspects. Computer Vision n’est qu’une des briques de notre technologie anti-phishing, un niveau supplémentaire de protection contre les attaques les plus sophistiquées.

Détection des logos - surf online

Nous nous sommes appuyés sur notre maîtrise toujours plus importante de cette technique pour mettre à jour notre technologie de détection des logos basée sur l’apprentissage profond. Nous avons notamment mis en œuvre un algorithme propriétaire d’apprentissage actif pour nous assurer que les coûts d’étiquetage et la performance des modèles d’apprentissage profond soient optimaux. De plus, les modèles VGG-16 et ResNet prennent désormais en charge de nouveaux logos, notamment : Adobe, Citibank, eBay, Desjardins, Instagram et WeTransfer.

Nous sommes aujourd’hui en mesure de détecter les logos de plus de 60 marques et notamment ceux de Microsoft, de PayPal, de Facebook et d’eBay. Notre technologie de détection des logos est capable de détecter les logos modifiés et de petite taille, alors que d’autres technologies similaires basées sur l’apprentissage profond n’y parviennent pas. La raison de leur échec ? Elles n’ont pas été entraînées spécifiquement sur des documents électroniques, tels que des rendus graphiques de pages Web et d’emails. Nous allons continuer à améliorer notre technologie et ajouterons les nouvelles marques qui gagnent en popularité chez les hackers.

Contexte

La manipulation des images, qui inclut l’ajout de flou et de modifications subtiles des couleurs ou de la géométrie, est de plus en plus populaire. En effet, la moindre modification d’une image en modifie le hachage cryptographique, ce qui perturbe les filtres qui s’appuient sur l’analyse de la signature ou une analyse statistique et permet de contourner sans problème les listes noires.

Voici un exemple de manipulation d’une image, un email de phishing semblant provenir de Microsoft et disposant d’un logo modifié. Pour éviter d’être découvert, le hacker a en effet placé le logo de Microsoft sur un arrière-plan coloré et a ainsi changé sa signature.

Détection des logos - outlook

Pour créer une technologie de détection des logos insensible à de tels stratagèmes, l’équipe de recherche de Vade a recours à des techniques d’augmentation et de génération d’images. Vous trouverez ci-dessous une image comportant un logo à la configuration inattendue  (position et arrière-plan), générée automatiquement.

Détection des logos - image

Ce type d’image permet de s’assurer que les modèles d’apprentissage profond reconnaissent les logos, quels que soient leur position, l’arrière-plan et les techniques de manipulation mentionnées précédemment.

Les hackers recourent de plus en plus aux images pour contourner les filtres de messagerie traditionnels. La tendance est aujourd’hui à l’envoi d’emails qui ne contiennent qu’un lien vers une image, cette image constituant un rendu graphique du contenu HTML. Pour résoudre le problème de ces images distantes, Vade a imaginé le modèle RIANA (Remote Image ANAlysis). RIANA s’appuie sur la reconnaissance optique des caractères (une technologie de Computer Vision) pour extraire le texte des images, puis applique des modèles de traitement du langage naturel en anglais, français, néerlandais, allemand et d’autres langues pour détecter les contenus textuels suspects. Voici quelques exemples récents d’images bloquées par RIANA.

Détection des logos - images bloquées

Pour vous donner une idée de l’étendue du problème des images distantes, sachez que RIANA a bloqué 500 millions de ces images au cours des 90 derniers jours.

Computer Vision est une arme supplémentaire de détection des logos contre les attaques sophistiquées qui reposent sur des images pour ne pas être détectées. Vade a réalisé des investissements massifs dans Computer Vision et compte bien se pencher sur d’autres utilisations possibles de cette technologie.