Attaques BEC : l’utilisation d’algorithmes n’est pas sans conséquence
Sébastien Goutal
—12 janvier 2021
—2 min de lecture
À la différence des autres menaces véhiculées par les emails, les attaques BEC (business email compromise) se composent généralement de quelques lignes de texte, sans URL, fichier joint ou autre élément analysable. Pour les combattre, les éditeurs de solutions de sécurité de l’email ont opté pour des algorithmes basés sur l’intelligence artificielle. Leur objectif ? Repérer les contenus textuels pouvant trahir une attaque BEC.
En effet, l’IA, par l’intermédiaire du traitement du langage naturel, est capable de détecter efficacement les attaques BEC. En analysant le texte, ces algorithmes parviennent à détecter les sentiments d’urgence, ainsi que les mots et expressions clés couramment utilisés dans ces attaques, comme les demandes de virement bancaire, les paiements de factures et les cartes cadeaux.
Des années durant, la plupart des emails BEC étaient rédigés en anglais. Depuis peu, de nouvelles langues commencent pourtant à émerger. Des emails BEC en italien, espagnol, allemand et slovène ont ainsi été repérés. Cette évolution constitue en réalité un changement de stratégie face au développement de l’IA dans la sécurité de l’email et pose une difficulté majeure aux algorithmes pensés avant tout pour l’anglais.
Les attaques BEC dans d’autres langues se multiplient
L’apparition d’attaques BEC dans de nouvelles langues s’inscrit dans la droite lignée de la montée en sophistication globale des attaques. Même si de nombreux emails malveillants restent écrits dans un anglais plus qu’approximatif, les plus sophistiqués sont quant à eux parfaitement bien écrits et ne comportent pas les signes évocateurs des attaques BEC.
De plus, les hackers prennent désormais le temps de briser la glace avec leurs victimes plutôt que de formuler leur demande dès le premier contact. Cette tactique s’explique par deux raisons : tout d’abord, le pretexting incite la victime à baisser sa garde. Ensuite, en échangeant des emails avec le hacker, la victime apprend sans le savoir à certains algorithmes que l’expéditeur est légitime. L’adresse email du hacker peut ainsi être inscrite en liste blanche.
Les algorithmes d’IA et notamment de traitement du langage naturel détectent de mieux en mieux ces stratégies. Le problème, c’est que les algorithmes majoritairement pensés pour l’anglais sont naturellement plus efficaces dans cette langue et moins dans les autres.
Un récent article du Time a mis en lumière ces difficultés dans une analyse des algorithmes de détection des discours haineux de Facebook. Alors que Facebook affirme pouvoir analyser des contenus dans 40 langues, ses algorithmes ne détectent que 80 % des publications malveillantes. Un taux de détection de 80 % est non seulement très mauvais mais surtout dangereux en matière de sécurité de l’email.
Pour être efficaces dans l’analyse d’autres langues, les algorithmes d’IA ont besoin de jeux de données volumineux. L’anglais étant la langue la plus parlée dans le monde, les éditeurs de solutions de sécurité de l’email disposent de nombreuses données à l’aide desquelles entraîner leurs algorithmes. La taille des jeux de données dans les autres langues, en particulier de celles qui ne sont pas parlées partout dans le monde, est probablement bien inférieures. Cette différence est essentielle, car plus les jeux de données sont réduits, moins les données sont fiables.
Pour améliorer les capacités linguistiques de leurs algorithmes d’IA, les éditeurs doivent non seulement renforcer leurs jeux de données, mais aussi réaliser d’importants investissements pour mettre à jour leurs moteurs de détection, deux tâches à la fois longues et coûteuses. Par ailleurs, les données doivent être actualisées en permanence par de nouveaux échantillons de la langue cible. Le nombre de boîtes aux lettres protégées par un éditeur et l’importance de sa présence internationale constituent au final les meilleurs indicateurs de la qualité de ses algorithmes d’IA, car ces outils sont entraînés à l’aide d’échantillons réels de texte dans de nombreuses langues différentes.