Email-Sicherheit

Der Unterschied zwischen künstlicher Intelligenz und Marketing-Masche im Cybersicherheitsbereich

Adrien Gendre

11. Juli 2019

4 min

True AI and Marketing B.S

Die Darstellung von künstlicher Intelligenz (KI) in Film und Fernsehen hat unsere Vorstellung von KI beeinflusst, wir halten sie für futuristisch und manchmal sogar unerklärlich. All diese Verwirrung ist gut für Cybersicherheits-Unternehmen, die ihre Produkte so vermarkten, als würden sie von künstlicher Intelligenz gesteuert. Für Unternehmen, die in einem Markt navigieren, der von KI-Behauptungen nur so überschwemmt ist, kann es schwierig sein zu erkennen, was tatsächlich künstliche Intelligenz und was nur eine Marketing-Masche ist.

Irreführende Aussagen führen zu enttäuschenden Ergebnissen

Wenn Sie Science Fiction-Fan sind, kann KI für Sie alles sein, von einer missratenen, prädiktiven Gesetzgebung bis hin zu maschinengetriebenen Endzeitkriegen. In der realen Welt werden Maschinen jedoch aus praktischeren Gründen trainiert. Im Cybersicherheitsbereich wird KI für die Vorhersage von Bedrohungen, zur Überwachung, Analyse und Problembeseitigung verwendet. Hierzu gehören verschiedene Unterformen der künstlichen Intelligenz, einschließlich Maschinelle Lernen und Deep Learning — die Bereiche, in denen die schwere Arbeit verrichtet wird. Für den Durchschnittskäufer ist nichts davon ohne langwierige Erklärungen verständlich, für die er jedoch keine Zeit hat, und genau darauf bauen einige Händler.

Da der Durchschnittsanwender die technischen Einzelheiten der verschiedenen KI-Untergruppen nicht kennt, ist es einfach, ihn darüber zu täuschen, was ein Produkt ist oder auch nicht ist. „Viele Cybersicherheits-Unternehmen geben vor, mit KI zu arbeiten“, so Sébastien Goutal, Chief Scientist bei Vade Secure, „dabei handelt es sich jedoch einfach nur eine Umbenennung ihrer Kerntechnologie — die wahrscheinlich gar keine KI ist.“

Käufer, die von KI-Versprechen eingelullt werden und dann feststellen müssen, dass sie für eine Plattform mit den hellseherischen Fähigkeiten eines Chatbots zahlen, werden zweifellos von den Ergebnissen enttäuscht sein.

Was KI ist und was es nicht ist

KI ist eher ein Marketingbegriff als eine Technologie — ein Überbegriff, der nicht beschreibt, was die Technologie macht, erklärt Goutal. Der Begriff, den wir eigentlich verwenden sollten, lautet maschinelles Lernen.

Als Unterform von KI werden anhand von maschinellem Lernen Modelle mithilfe von Daten trainiert. Im Bereich E-Mailsicherheit werden die Modelle mit Daten sowohl aus legitimen als auch illegitimen E-Mails gefüttert — mit Nicht-Bedrohungen und Bedrohungen. Sie lernen, Muster in beiden Kategorien zu erkennen, sowohl den Inhalt normaler Geschäftskorrespondenz als auch den der finanziell dringlichen Spear-Phishing-E-Mails; saubere URLs in Marken-E-Mails im Gegensatz zu bösartigen URLs aus Phishing-E-Mails; legitime E-Mailadressen anstelle von gespooften E-Mailadressen und so weiter.

KI ist jedoch keinesfalls eine Wunderwaffe. Verkäufer, die behaupten, dass ihre KI absolut alle Bedrohungen erkennen kann, sind bestenfalls unaufrichtig: Kein System kann alle Bedrohungen auffangen. Maschinelle Lernen-Modelle machen Fehler, die Modelle können jedoch so trainiert werden, dass sie aus ihren Fehlern lernen und sich anpassen.

Bewertung einer KI-basierten Lösung

Um zwischen Marketingsprache und technischer Realität zu unterscheiden, muss man als Käufer die richtigen Fragen stellen. Eine Frage, die man auf der Suche nach einem KI-basierten E-Mailsicherheitsprodukt stellen sollte, lautet „ist es Supervised Learning oder Unsupervised Learning?“.

Supervised Learning erfordert einen Trainer, üblicherweise einen Datenwissenschaftler, der die Daten als bösartig oder legitim einstuft und die Modelle kontinuierlich trainiert. In einem Beispiel wird ein im Voraus bestimmter Satz aus E-Maileigenschaften berechnet und mit dem trainierten Modell verglichen. „Bei korrektem Training“, so Goutal, „sind die Supervised Learning-Modelle in der Lage zu generalisieren, und das bedeutet, dass sie unbekannte Angriffe erkennen können. Das ist wichtig, denn die Bedrohungslandschaft ist konstant in Bewegung.“ Im Fall von Supervised Learning sollten Sie den Händler auch fragen, welche Eigenschaften das Modell analysiert und ob der Händler eine „Feature Selection“ durchführt. Einige Anbieter behaupten, Tausende von Eigenschaften zu analysieren. Goutal zufolge ist das Overkill. „Qualität ist wichtiger als Quantität.“

Unsupervised Learning kann Anomalien erkennen und bösartige E-Mails identifizieren. Anders als bei Supervised Learning-Modellen müssen beim Unsupervised Learning-Algorithmus keine Daten von einem Fachmann gekennzeichnet werden. Stattdessen werden seltene Ereignisse erkannt, die sich beachtlich vom Großteil der Daten unterscheiden und verdächtig sind. Unsupervised Learning ist besonders gut geeignet, wenn es darum geht, Spear-Phishing-E-Mails zu erkennen, wie zum Beispiel finanziell motivierte Anfragen, da diese Angriffe Anomalien im eingehenden E-Mailverkehr der Zielorganisationen darstellen.

Deep Learning ist eine andere Untergruppe der KI, die im Cybersicherheitsbereich ihre Runden macht, und wird aufgrund ihrer Komplexität wahrscheinlich noch weniger gut verstanden als die oben erwähnte Form. Anders als maschinelles Lernen verlässt sich Deep Learning gezielt auf ein künstliches neuronales Netz und benötigt eine sehr große Menge an Daten, um die traditionellen Machinellen Lernen-Algorithmen zu übertreffen. Deep Learning eignet sich insbesondere in der Computervision. Im E-Mailsicherheitsbereich wird es verwendet, um betrügerische Markenlogos zu erkennen, die in Phishing-E-Mails und Webpages eingefügt werden.

Obwohl viele Cybersicherheits-Unternehmen behaupten, Deep Learning einzusetzen, eignet es sich nicht gut für nicht-stationäre Probleme, meint Goutal, und das ist die Grundlage für Cybersicherheit. Deep Learning-Modelle sind auch sehr kostspielig zu produzieren, was die Einstiegsbarriere noch weiter erhöht. Fragen Sie, ob das Deep Learning-Modell eines Anbieters vortrainiert ist und welcher Datensatz dazu verwendet wurde. Damit erfahren Sie einiges über seine Fähigkeiten. Die Verwendung eines vortrainierten Modells ist üblich, sollte jedoch für zusätzliches Training durch Transfer Learning ergänzt werden.

Fragen Sie abschließend auch nach der Herkunft der Daten, unter anderem auch „woher stammt Ihre Datenquelle?“ und „wie groß ist Ihr Datensatz?“. Die Antworten werden Ihnen viel über das Produkt verraten. Maschinelle Lernen-Modelle müssen mit großen Mengen an Daten trainiert werden, erklärt Goutal. Das ist ein wesentliches Unterscheidungsmerkmal beim Vergleich von E-Mailsicherheits-Anbietern, die KI verwenden — oder behaupten, es zu tun. Maschinelle Lernen-Modelle können nur aus den Daten lernen, die ihnen zur Verfügung stehen. Sind die Daten nicht zuverlässig oder ist der Datensatz zu klein, dann sind die Modelle ineffizient.

Da tagtäglich neue Bedrohungen entdeckt werden und sich die Taktiken der Cyberkriminellen beständig ändern, müssen die Daten darüber hinaus auch konstant aktualisiert werden. Wie oft führt ein Anbieter ein Update seines Datensatzes durch? Minütlich? Wöchentlich? Wenn die Daten veraltet sind, übersieht das Modell Bedrohungen. Vade Secure schützt mehr als 600 Millionen Posteingänge, einschließlich derer der weltweit größten ISPs. Die Daten werden in unserem Datensatz gespeichert und zum kontinuierlichen Trainieren unserer Modelle verwendet.

Die ultimative KI ist mehr als KI

Bei der Suche nach einem E-Mailsicherheitsprodukt auf KI-Grundlage sollte die KI mit anderen Technologien kombiniert werden, um so zu einer leistungsstarken Lösung zu kommen. Supervised Learning ist zum Beispiel zum Generalisieren bestimmt, es erkennt also keine Ausreißer. Es muss mit einem anderen Mechanismus kombiniert werden, denn eine perfekte Technologie gibt es nicht. „Cybersicherheit dreht sich um das Schichten verschiedener Technologien“, erklärt Goutal. „Eine KI-Schicht muss mit anderen traditionelleren Schutzebenen kombiniert werden.“

Die richtigen Fragen zu stellen — und einige der Antworten zu kennen — ist der Schlüssel zur Wahl einer KI-basierten Lösung, die mehr ist als nur ein Marketing-Trick oder ein cleveres Rebranding. Als MSP, der über eine Lösung für seine Kunden nachdenkt, haben Sie in Ihrem Bereich mit Sicherheit schon genug Nachahmer gesehen. „Es gibt einen Witz in der Gemeinschaft der Datenwissenschaftler“, erzählt Goutal: „Der Unterschied zwischen maschinellem Lernen und KI besteht darin, dass es, wenn in Python geschrieben ist, wahrscheinlich Machinelle Lernen ist, während es dann, wenn es in PowerPoint verfasst ist, wahrscheinlich KI ist.