Comment les modèles de langage transforment la sécurité des emails

Todd Stansfield

—

08 avril 2024

—

5 min de lecture

Avec la prolifération de l'intelligence artificielle (IA) dans le domaine de la sécurité de l’email, la lutte contre les attaques de phishing et de spear-phishing exige une sophistication croissante de la part des fournisseurs de sécurité. L'exploitation des technologies d'IA est devenue la pierre angulaire des stratégies de défense, permettant une analyse rapide des emails afin d'identifier les escroqueries potentielles avec plus d'efficacité que jamais. Parmi les dernières avancées qui remodèlent ce paysage, on trouve les grands modèles de langage (LLM).

Dans cet article de blog, nous allons nous pencher sur le rôle central des LLM, en mettant en lumière leur importance pour la détection du phishing. Nous commencerons par celui qui a fait la une de l'actualité : ChatGPT.

Mais qu'est-ce que c'est ?

GPT signifie Generative Pre-trained Transformer (transformateur génératif pré-entraîné), et le modèle lui-même peut être utilisé au-delà de la version de ChatGPT qui a fait la une des journaux. Ces modèles sont utilisés pour affiner, inviter et/ou répondre à un problème de génération de texte qu'une tâche de traitement automatique du langage naturel (NLP) tente de résoudre. Le NLP est une fonction que Vade utilise dans ses algorithmes depuis un certain temps ; il combine la modélisation du langage humain basée sur des règles avec l'apprentissage automatique et des modèles statistiques pour pouvoir traiter et générer de la parole et du texte. Un grand modèle de langage est l'un des modèles qui peuvent être fournis aux moteurs NLP pour comprendre le langage humain.

Si vous avez déjà utilisé la synthèse vocale pour taper un message, vous avez utilisé le NLP sous une forme plus simple.

ChatGPT est une version plus avancée, qui peut recevoir des messages guidés auxquels répondre. En entraînant le NLP sur de grandes quantités de texte, ChatGPT est mieux à même de résoudre les tâches que vous lui confiez à l'aide de messages guidés. Un utilisateur occasionnel peut s'amuser en lui donnant des instructions telles que "raconte-moi une blague drôle" ou "résume-moi cet article".

Chez Vade, nous sommes de plus en plus créatifs.

Pourquoi avons-nous besoin de grands modèles de langage et de traitement automatique du langage naturel pour détecter les emails de phishing ?

Du point de vue des analystes et des chercheurs, ce sont des sujets fascinants en soi.

Mais lorsqu'il s'agit de la sécurité des emails et de la détection du phishing, est-ce vraiment là que la technologie doit se concentrer ? Des arguments pourraient être avancés pour tenter de remonter à l'expéditeur d'un email, pour mieux détecter l'usurpation de domaine ou pour consacrer davantage de ressources à l'examen des données jointes à un email donné. L'utilisation de ces technologies peut s'avérer utile, mais seules, elles peuvent souvent présenter des lacunes ou commettre des erreurs. Si vous avez déjà eu affaire à des fournisseurs de services de messagerie gratuits et à leurs filtres anti-spam ou junk très simples, vous savez probablement à quel point ce type de filtrage automatisé de base peut être limité.

De plus, les escrocs qui pratiquent le phishing sont de plus en plus astucieux et utilisent diverses tactiques pour se glisser dans votre boîte de réception. Ils peuvent utiliser une adresse électronique légitime provenant d'un fournisseur gratuit et changer simplement le nom d'affichage. Ils peuvent abuser d'une redirection ouverte, cachant leurs sites de phishing derrière des URL légitimes avec une série de redirections rapides. Il peut même s'agir d'une attaque de spear-phishing qui envoie un faux email à la victime visée.

Dans le cadre de notre approche stratifiée de la sécurité de l’email, nous ne nous contentons pas d'analyser les facteurs de risque comme le font tous les fournisseurs de services de sécurité de l’email. Nous examinons plusieurs éléments d'un message électronique, y compris ce qui est contenu (ou caché) dans le corps du texte.

Ce que nous avons trouvé de plus efficace, c'est de combiner les signaux techniques de phishing potentiel, tels que les redirections et les envois depuis des domaines à risque, avec le NLP pour évaluer la probabilité qu'un ensemble de textes donné puisse être une escroquerie par phishing. Dans sa forme la plus simple, il s'agit de rechercher des mots et des phrases à risque, tels que " « Nous avons remarqué une activité inhabituelle sur votre compte. Veuillez vérifier. » ou « J’ai besoin que vous fassiez un paiement urgent ».

Ces phrases se voient attribuer des valeurs et sont intégrées à l'algorithme de phishing pour évaluer l'email. Contrairement à ChatGPT et à d'autres plateformes similaires, notre algorithme n'essaie pas de comprendre le texte. Il compare si les modèles correspondent à des modèles similaires que nous avons déjà identifiés et entraînés l'algorithme à reconnaître comme du phishing.

Mais qu'en est-il lorsqu'il n'y a pas de liens risqués, que le nom de l'expéditeur ressemble à celui du PDG, que l'email provient d'un domaine d'envoi légitime et que le contenu de l'email est simplement "J'ai besoin de ceci très rapidement, pouvez-vous m'aider ?".

ChatGPT n’est pas seulement utilize par les “gentils”

L'une des principales raisons pour lesquelles les algorithmes de sécurité de l’email sont formés à l'aide de LLM n'est pas seulement d'attraper les escroqueries par phishing "évidentes", telles que celles qui demandent des virements. Il s'agit également de repérer les cas où le texte d'un email suit des modèles identifiés dans d'autres emails malveillants.

Nous nous distinguons en combinant les données provenant de sources multiples pour le bénéfice de tous nos partenaires. Nos algorithmes sont mis à jour en temps réel grâce aux rapports des emails signalés, ce qui permet d'améliorer la précision de nos modèles grâce aux menaces et aux données les plus récentes. En plus d'intégrer les menaces émergentes et aberrantes identifiées par les rapports des utilisateurs, nous sommes en mesure d'entraîner nos modèles sur des messages de phishing en temps réel observés dans la nature.

En outre, ces rapports alimentent un LLM pour générer des messages de phishing potentiels. Au lieu de simplement demander à l'IA si un message est du phishing, nous pouvons également demander s'il a pu être produit par l'IA générative.

Combiné à une multitude d'autres facteurs, nous sommes alors en mesure de composer notre (nos) algorithme(s) pour fournir une probabilité qu'un email donné soit une tentative de spear phishing, une large attaque de phishing, un graymail, ou simplement un spam ordinaire.

Vigilance 24/24

Si les professionnels de la cybersécurité ont tendance à se méfier des emails par nature, la plupart des gens n'ont pas l'habitude de se méfier immédiatement d'un email d'apparence inoffensive envoyé par ce qui semble être un collègue. Même l'expert en cybersécurité le plus endurci peut être trompé s'il est pressé, s'il consulte son téléphone portable ou s'il est simplement dans un mauvais jour.

C'est là que Vade (qui fait maintenant partie du groupe Hornetsecurity) et notre filtre de phishing de pointe entrent en jeu, grâce aux innovations des LLM et de NLP.

ChatGPT, c'est sympa, mais les hackers et les cybercriminels utilisent aussi ces plateformes. Et ils les utilisent pour créer des messages génériques à grande échelle qui semblent si légitimes qu'ils contournent la plupart des filtres.

Lorsque ChatGPT est devenu largement disponible et a commencé à être référencé dans les packs Scama, nos analystes cherchaient déjà des moyens de rester au fait de ces tactiques. Plus tôt, j'ai décrit l'utilisation du traitement automatique du langage naturel pour résoudre des tâches - imaginez que l'on demande à l'IA de nous dire s'il est probable qu'un emailait été généré par l'IA.

Nous pourrions également demander comment un message se compare à d'autres emails de phishing.

Parallèlement, nous pouvons déterminer si le niveau de confiance de l'IA change si nous prenons en compte d'autres éléments, tels que l'adresse électronique, l'adhésion au protocole DMARC et les données d'en-tête.

L'énorme avantage du filtre Vade est que, contrairement aux humains, il ne se fatigue jamais, n'est jamais trop occupé ou distrait.

Ainsi, lorsque le PDG envoie un email demandant "Pouvez-vous me faire ceci ?", notre filtre peut le signaler comme étant risqué, vous donnant ainsi, à vous ou à vos utilisateurs, le temps de vous arrêter et de réfléchir. En matière de cybersécurité, ce moment peut faire toute la différence. Il vous donne le temps de vérifier l'adresse électronique de l'expéditeur ou de retarder la réponse jusqu'à ce que vous puissiez examiner l'email de plus près.

En tirant parti des grands modèles de langage pour améliorer notre NLP, nous sommes mieux à même de détecter et de signaler les emails à risque dans de nouvelles catégories. Les sujets tels que la fraude à la TVA sont particulièrement délicats, les cibles pouvant être particulièrement vulnérables en raison du stress, de l'inquiétude ou de l'incertitude quant aux personnes susceptibles de les contacter au sujet de leurs documents fiscaux.

Ajoutez la puissance du LLM et du NLP à la sécurité de vos emails

Si vous souhaitez garder une longueur d'avance sur les hackers qui utilisent ChatGPT et d'autres outils pour améliorer leurs stratégies de phishing, la technologie de sécurité des emails de Vade combinée à la suite de services de Hornetsecurity est la solution. Notre innovation de pointe est maintenant soutenue par les protections complètes de Hornetsecurity conçues pour sécuriser votre entreprise et celle de vos clients.