サイバーセキュリティにおける本物のAIとマーケティング上のでたらめAIの違いを理解する

映画やテレビで描写される人工知能(AI)の影響で、人々はAIを未来的で説明不可能なものだと捉えています。この混乱は、自社の製品が人工知能(AI)を備えたものとしてマーケティングしようとしているサイバーセキュリティ会社にとって好都合です。AIを謳う製品が溢れている市場で舵を取るバイヤーにとって、何が本物のAIで何がマーケティング上のでたらめAIなのかを見分けるのは難しいでしょう。

誤解を招く主張が残念な結果を招く

あなたがSFファンならば、AIとは、間違った方向に進む予測的な警察活動や、機械主導の最終戦争のようなものだと考えるでしょう。現実の世界での機械は、より実践的な問題に備えた訓練を受けています。サイバーセキュリティの分野でのAIは、機械学習やディープラーニングなど、さまざまなAIのサブセットを用いて、脅威の予測・監視・分析・修正に適用されて、手間のかかる難しい作業を担います。平均的なバイヤーにとって、長い説明なしに理解できる製品はありませんし、そもそも長い説明をじっくりと聞いている時間もありません。ところが、実際には、それを期待しているベンダーがたくさんいます。

平均的な人はAIのサブセットに関する技術的なことは分かりません。ですから、製品の内容について彼らを欺くのは簡単です。「多くのサイバーセキュリティ会社がAIを導入しているふりをしています」と、Vade SecureのChief Science Officerであるセバスチャン・グタール氏は言いました、「しかし実際には、それらの企業の中心的な技術の商標変更に過ぎません、しかも、それはおそらくAIではないでしょう」。

AIの触れ込みにだまされてしまったバイヤーは、単に、チャット・ボットの予測的な機能を備えたプラットフォームに出資しただけだったと知り、間違いなく結果に失望するでしょう。

何がAIで、何がAIではないのか?

AIは、テクノロジーというよりはむしろマーケティング用語です。それは、総称として使われる言葉であり、そのテクノロジーがどんな役割を果たすのかを説明する言葉ではないとグタール氏は言います。私たちが使うべき言葉は、機械学習です。

AIのサブセットの1つである機械学習はデータを使ってモデルを訓練します。メールセキュリティにおいて、それらのモデルは、正当なメールと不当なメール、つまり、脅威でないものと脅威そのものの両方からのデータによって培われます。それらのモデルは、両方の場合のパターンを認識できるように学習します。その例としては、通常のビジネスメールのやり取り VS 緊急の金銭的な内容のスピアフィッシングメール、ブランドからのメール内の正常なURL VS フィッシングメール内の悪質URL、正当なメールアドレス VS なりすましメールアドレスなどが挙げられます。

AIは特効薬ではありません。自社のAIが脅威を100パーセント捕獲すると主張するベンダーは、お世辞にも誠実とは言えません。というのも、すべての脅威を捕らえられるシステムなど存在しないからです。機械学習モデルは、誤りを犯すことがありますが、それらの誤りから学んで適応できるように再訓練されます。

AIを搭載とするソリューションを見極める

マーケティング上の話なのか、技術的な現実なのかを判断するために、バイヤーは適切な質問をしなければなりません。グタール氏によれば、AIを基本とするメールセキュリティ製品を探している時にすべき質問は、「それは教師あり学習ですか、それもと教師なし学習ですか?」です。

教師あり学習には、そのデータが悪意のあるものか正当なものかを判断するトレーナーが必要であり、通常、データ科学者か脅威アナリストがその役割を務めます。1つ例を挙げると、訓練済みのモデルによって、メールのある一定の特徴が計算されて、比較されます。「正確に訓練されていれば、教師あり学習モデルは総括的に結論を出すことができます、つまり、未知の攻撃を検知できます。これは重要なことです。というのは、脅威の概観は常に変化し続けているからです。」とグタール氏は述べました。 教師あり学習の場合、そのモデルが分析する特徴は何か、または、分析する特徴をベンダーが選択できるのかどうかを質問するのもよいでしょう。中には、数千の特徴を分析すると主張するベンダーもいます。グタール氏に言わせると、これは行き過ぎです。「量よりも質が重要です」と彼は言います。

教師なし学習は、異常を検知して悪質メールを特定します。教師あり学習モデルと違って、教師なし学習のアルゴリズムには専門家によって分類されたデータは必要ありませんが、大半のデータと著しく異なる不審な珍しいイベントを検知することができます。教師なし学習は、金銭的な理由を持つ依頼のようなスピアフィッシングメールの特定に特に優れています。というのは、これらの攻撃は、対象の組織のインバウンドメールトラフィックにおいて異常だからです。

ディープラーニングは、サイバーセキュリティの分野で広まりつつあるAIのもう一つのサブセットです。そして、これは非常に複雑であるため、おそらく前述のサブセットよりも分かりにくいでしょう。機械学習とは違って、ディープラーニングは、特に人工ニューラルネットワークに依存しており、膨大な量のデータを利用して、従来の機械学習アルゴリズムよりもすぐれた性能を発揮できます。ディープラーニングは特にコンピュータビジョンに適しています。メールセキュリティにおいては、フィッシングメールやフィッシングウェブページに挿入されている不正なブランド画像の特定に利用されています。

多くのサイバーセキュリティ会社がディープラーニングの利用を主張していますが、それらは、サイバーセキュリティの核心である非定常の問題にあまりうまく適応できないものである場合が多いとグタール氏は指摘します。また、ディープラーニングモデルは製作費用が嵩むため、参入するのが非常に困難です。そのベンダーのディープラーニングが事前訓練済みかどうか、そして訓練にはどのデータセットが利用されたのかを聞いてみましょう。これにより、その性能に対するインサイトを得ることができます。事前訓練済みモデルの使用は広く普及していますが、追加の訓練を受けるために、転移学習で別の用途で使われなければなりません。

最後に、「貴社のデータソースは何ですか?」または「貴社のデータベースのサイズはいくつですか?」など、データ自体の出処に関する質問をしてみましょう。 その質問に対する答えから、その製品について多くのことが分かるでしょう。機械学習モデルは、相当な量のデータを使って訓練される必要があるとグタール氏は言います。これは、AIを使っているメールセキュリティベンダーと使っていると主張しているベンダーを比較する際の重要な差別化要因です。機械学習モデルは、入力されたデータからしか学習できません。そのデータが信頼性の低いものであったり、データセットが小さすぎたりする場合、そのモデルは役に立ちません。

さらに、新たな脅威が日々発見され、サイバー犯罪者たちの戦術も常に変化しているため、データは絶えず更新されなければなりません。そのベンダーはどれくらいの頻度でデータセットを更新しているのでしょうか?毎分?毎週?データが古いと、そのモデルは脅威を逃してしまいます。Vade Secureは、世界最大級のISPを含む6億個以上のメールボックスを保護しています。このデータが当社のデータベースを培い、継続的に当社のモデルを訓練します。

究極のAIはAI以上

AIを搭載としたメールセキュリティ製品を選ぶなら、他のテクノロジーと組み合わされることで、高性能のソリューションを作り出せるAIを選ぶべきです。例えば、教師あり学習は総括して結論を出す目的で構築されているため、異常値を検出できません。完璧なテクノロジーなど存在しないため、他のメカニズムと組み合わされなければなりません。「サイバーセキュリティとは、異なるテクノロジーを積み重ねることです」とグタール氏は言います。「AIレイヤーは他の従来のセキュリティレイヤーと組み合わされるべきです。」

適切な質問をして、その答えのいくつかを知ることが、マーケティングの策略や巧みな商標変更ではないAIを搭載とするソリューションを選ぶためのカギです。貴社が顧客のためのソリューションを検討しているMSPならば、貴社の真似をする企業をたくさん目にしてきたことでしょう。「データ科学の仲間内で知られている冗談があります」とグタール氏は言います、「機械学習とAIの違いとは、Pythonで書かれたものならば、おそらくそれは機械学習であり、PowerPointで書かれたものならば、おそらくAIだ」と。