Un antispam est un moteur de filtrage qui détecte tous les e-mails non sollicités. L'entité qui héberge la solution antispam décide ensuite des opérations à effectuer avec de tels e-mails.
Les e-mails sollicités et donc légitimes :
Les e-mails non sollicités et par conséquent illégitimes :
Le marché de l'antispam présente aujourd'hui un grand nombre d'acteurs qui ont chacun leur périmètre d'analyse. Vous êtes donc en droit de vous poser la question suivante :
Lorsque vous souhaitez mesurer un taux de faux positif, l'idéal est de disposer d'un corpus d'emails légitimes et de l'évaluer avec le filtre. En comptant le nombre d'e-mails marqués « spam » et en faisant le rapport avec le nombre total d'e-mails, vous obtenez le taux de faux positif de votre solution antispam. Prenons un corpus de 1 000 e-mails légitimes. L'antispam testé bloque un e-mail : le taux de faux positif est donc de 0.1%. Cet indicateur peut être calculé en condition de production et donc rapporté à l'ensemble du flux e-mail reçu (qui contient du spam, de la publicité, des e-mails interpersonnels, des notifications …). Si nous avons reçu 1 000 000 d'e-mails et n'avons fait qu'un seul faux positif, alors le taux de faux positif devient 0.0001%, soit 1 pour 1 000 000.
Il y a différentes façons de se procurer des corpus afin d'améliorer le filtrage. Le flux e-mail évolue constamment, et un corpus peut vite devenir obsolète : il est à ce titre indispensable de renouveler la constitution de ces corpus. L'idéal est d'avoir un flux continu permettant de constituer des corpus sur une base quotidienne ou hebdomadaire.
Certaines sociétés permettent de recevoir du flux de type spam. Ces flux sont principalement issus de pots de miels, ou honeypots. Ces pots de miels sont constitués en laissant sur internet des adresses e-mail qui seront capturées par les robots des spammeurs; ces robots permettant à ces derniers de constituer leur fichier d'adresses pour de futurs envois. Les pots de miels ne contiennent que très peu de phishings, de scams ou de publicités, car ces derniers ne sont envoyés qu'à des adresses valides pour maximiser le retour sur investissement: en effet, l'envoi de ces e-mails ayant un coût supérieur à celui du spam, ils sont donc ciblés et n'utilisent pas les fichiers d'adresses constitués par les robots. Les flux proposés par ces sociétés permettront donc en grande partie de tester le filtre antispam face au spam seul.
Il existe également des corpus d'e-mails publics comme celui proposé par TREC (Text Retrieval Conference). Ces corpus sont très largement utilisés - en particulier dans les milieux universitaires - mais sont par contre obsolètes et souvent ciblés sur le seul marché américain. Ils ne sont donc pas du tout représentatifs de la réalité du flux e-mail.
L'idéal est soit de capturer un flux client en production, soit d'utiliser le retour client par l'intermédiaire d'une boucle de retour client, ou feedback loop. Ce sont en effet les seuls mécanismes qui permettant d'avoir une connaissance réelle du flux e-mail. L'utilisation d'une boucle de retour client est à ce titre indispensable pour déterminer si une publicité a été sollicitée ou non : en effet, le fait qu'un e-mail soit sollicité ne peut être déterminé de manière technique ; seul l'avis de son destinataire permet de le savoir.
Pour améliorer en permanence son moteur de filtrage, Vade développe une relation de partenariat avec ses clients en intégrant dans les contrats de vente la possibilité d'utiliser les flux e-mails par le laboratoire de Vade à des fins d'amélioration de la solution. Par conséquent, Vade dispose d'un flux continu quotidien de plusieurs millions d'e-mails qui permet d'appréhender l'ensemble de la problématique e-mail (spam, phishing, scam, publicité sollicitée ou non sollicitée …) et de constater les évolutions et tendances. Grâce aux flux continus dont dispose Vade pour alimenter ses corpus d'analyse, le laboratoire dispose d'un taux d'efficacité quotidien en cohérence avec le flux réel, ce qui permet à Vade de s'affirmer apte au flux à filtrer. A la date de rédaction de cet article (26/09/2011), Vade observe la répartition suivante du flux e-mail :
Le laboratoire de Vade constitue ainsi des corpus pour chaque type d'e-mails, et teste le moteur de filtrage sur les différentes menaces pour l'utilisateur final. A ce titre, Vade dispose d'un taux de filtrage indépendant pour le spam et pour la publicité, afin d'être en cohérence avec la réalité du flux e-mail.
Sébastien GOUTAL Adrien GENDRE
Filter Lab Manager Product Manager