Cybersécurité : blabla marketing et réalité technique de l’IA
Adrien Gendre
—11 juillet 2019
—5 min de lecture

Notre perception de l’intelligence artificielle est fortement conditionnée par les descriptions qu’en ont faites les films et les séries TV, qui la présente souvent comme un concept futuriste, voire inexplicable. Cette confusion s’est transformée en pain bénit pour les entreprises spécialisées dans la cybersécurité qui souhaitent mettre en avant l’utilisation de l’intelligence artificielle dans leurs produits.
La situation est plus difficile pour les acheteurs des entreprises : comment faire la différence entre la réalité et les arguments marketing dans un marché où de nombreuses solutions se réclament de l’IA ?
Des affirmations trompeuses pour des résultats décevants
Si vous êtes amateur de science-fiction, l’IA est sans doute pour vous synonyme de justice prédictive malsaine ou encore de guerre mondiale dirigée par des machines. En réalité, les machines sont entraînées à traiter des problématiques bien plus terre à terre. Dans le monde de la cybersécurité, l’IA concerne la prédiction, la surveillance, l’analyse et la neutralisation des menaces. Différents sous-domaines de l’IA, notamment l’apprentissage automatique et l’apprentissage profond, sont responsables de la majorité de ces tâches. Pour l’acheteur lambda, ces concepts sont difficilement compréhensibles sans une longue explication qu’ils n’ont pas le temps d’écouter, et c’est bien de cette faille que profitent de nombreux éditeurs.
En effet, cette absence de maîtrise technique des sous-domaines de l’IA permet facilement de présenter sous un jour trompeur les possibilités offertes par un produit. « De nombreuses entreprises de cybersécurité prétendent proposer des produits basés sur une IA », affirme Sébastien Goutal, Chief Scientist chez Vade. « En réalité, elles se contentent de donner un nouveau nom à leur technologie centrale, qui ne repose sans doute pas sur l’IA. »
Les acheteurs convaincus par les promesses de l’IA finissent par découvrir qu’ils paient une plateforme dont les capacités prédictives ne sont pas supérieures à celles d’un chatbot et sont immanquablement déçus par les résultats obtenus.
IA : entre réalité et fantasmes
Pour Sébastien Goutal, l’IA est plus un terme marketing qu’une technologie. Il s’agit d’un concept global qui ne décrit pas vraiment la technologie sous-jacente. Le terme « apprentissage automatique » est plus approprié.
Ce sous-domaine de l’intelligence artificielle consiste à entraîner des modèles à partir de données. Dans le monde de la sécurité de l'email, les modèles bénéficient de données issues à la fois d’emails légitimes et d’emails frauduleux (menaces). Ils apprennent ainsi à reconnaître à la fois les caractéristiques des correspondances professionnelles normales et des messages financiers urgents typiques des emails de spear phishing, des URL valides des emails envoyés par les marques et des URL malveillantes des emails de phishing, des adresses email légitimes et des adresses usurpées, etc.
L’IA n’est pour autant pas une panacée. Les éditeurs qui affirment que leur IA interceptera 100 % des menaces mentent effrontément, car aucun système n’est parfaitement efficace. Les modèles d’apprentissage automatique font des erreurs. Toutefois, ils peuvent être réentraînés pour apprendre de ces erreurs et s’adapter.
Évaluation d’une solution basée sur une IA
Pour parvenir à faire la distinction entre ce qui relève du marketing et la réalité technique, les acheteurs doivent poser les bonnes questions. Pour Sébastien Goutal, lors de la recherche d’un produit de sécurité de l'email basé sur une IA, il est nécessaire de demander si l’apprentissage du produit est supervisé ou non.
L’apprentissage supervisé impose de recourir à un expert, généralement un data scientist ou un analyste des menaces, qui indique si les données sont malveillantes ou légitimes et entraîne en continu les modèles. Par exemple, un ensemble prédéterminé de caractéristiques d’un email peuvent être calculées et comparées au modèle entraîné. « Lorsque l’entraînement est réalisé correctement », explique Sébastien Goutal, « les modèles d’apprentissage supervisés sont capables de généralisation. Cela signifie qu’ils sont en mesure de détecter les attaques inconnues. C’est une capacité importante, car les menaces sont en perpétuelle évolution. » Si le produit bénéficie d’un apprentissage supervisé, vous devez également demander à l’éditeur quelles caractéristiques le modèle analyse et si une sélection est appliquée. En effet, certains éditeurs affirment analyser des milliers de caractéristiques. Pour Sébastien Goutal, c’est bien trop. « La qualité est bien plus importante que la quantité. »
L’apprentissage non supervisé cherche quant à lui à détecter des anomalies pour repérer les emails malveillants. À la différence des modèles d’apprentissage supervisés, les algorithmes non supervisés n’imposent pas le recours à un expert pour libeller les données et peuvent détecter les événements rares et suspects qui diffèrent de manière importante de la majorité des données dont ils disposent. Ces modèles sont particulièrement performants dans l’identification des emails de spear phishing, par exemple les demandes financières, car ces attaques constituent des anomalies dans le flux des emails entrants des organisations.
L’apprentissage profond est un autre sous-domaine de l’IA bien connu dans le monde de la cybersécurité et potentiellement moins bien compris que les autres, car il est particulièrement complexe. À la différence de l’apprentissage automatique, l’apprentissage profond repose spécifiquement sur un réseau neuronal artificiel et nécessite de très grandes quantités de données pour surpasser les algorithmes d’apprentissage automatique classiques. L’apprentissage profond est particulièrement performant dans le domaine de la vision par ordinateur. Dans la sécurité de l'email, il est utilisé pour repérer les images de marques frauduleuses insérées dans les emails de phishing et les pages Web.
Pour Sébastien Goutal, bien que de nombreuses entreprises de cybersécurité prétendent recourir à l’apprentissage profond, cette technique ne convient pas vraiment au dynamisme de la cybersécurité. La création de modèles d’apprentissage profond est par ailleurs coûteuse et limite donc leur utilisation. Demandez à l’éditeur si son modèle d’apprentissage profond est préentraîné et si oui, avec quel ensemble de données. La réponse vous donnera quelques indications quant à ses capacités. L’utilisation d’un modèle préentraîné est courante, mais impose de recourir à un apprentissage par transfert pour plus d’efficacité.
Enfin, intéressez-vous aux origines des données à proprement parler, notamment en demandant quelle est la source des données et quelle est la taille de l’ensemble de données. Les réponses seront très révélatrices. « Les modèles d’apprentissage automatique ont besoin de volumes de données importants », explique Sébastien Goutal. Il s’agit d’un critère stratégique dans la comparaison de solutions de sécurité de l'email utilisant, ou prétendant utiliser, une IA. Les modèles d’apprentissage automatique sont limités par les données sur lesquelles ils sont basés. Si les données ne sont pas fiables ou si l’ensemble de données est trop limité, ils seront en effet inefficaces.
Par ailleurs, de nouvelles menaces sont découvertes chaque jour et les stratégies des cybercriminels ne cessent d’évoluer : ces données doivent donc être mises à jour en continu. À quelle fréquence l’éditeur met-il à jour son ensemble de données ? Toutes les minutes ? Toutes les semaines ? Si les données sont obsolètes, le modèle passera à côté de certaines menaces. Vade protège plus de 600 millions de boîtes aux lettres, y compris celles des plus grands FAI de la planète. Ces données alimentent notre ensemble de données et entraînent nos modèles en continu.
L’IA ultime est bien plus qu’une IA
Vous êtes à la recherche d’une solution de sécurité de l'email basée sur une IA ? Veillez à ce que cette IA soit combinée à d’autres technologies pour garantir la performance de la solution. L’apprentissage supervisé est par exemple conçu pour la généralisation et peut passer à côté d’anomalies flagrantes. Il doit donc être combiné à un autre mécanisme, car la technologie parfaite n’existe pas. « La cybersécurité, c’est avant tout la combinaison de différentes technologies », explique Sébastien Goutal. « Une IA doit être associée à d’autres niveaux de sécurité, plus classiques. »
En posant les bonnes questions, et en connaissant certaines réponses, vous parviendrez à choisir une solution qui n’est pas qu’une invention marketing ou une nouvelle façade pour un ancien produit. Si vous êtes un MSP et que vous êtes à la recherche d’une solution pour vos clients, vous avez probablement déjà rencontré un certain nombre d’imposteurs. « Une blague circule beaucoup dans le monde de la data science », révèle Sébastien Goutal. « La différence entre l’apprentissage automatique et l’IA est très simple. Si le code est en Python, c’est sans doute de l’apprentissage automatique. S’il est écrit en PowerPoint, c’est sans doute de l’IA.»