BEC:英語優先のアルゴリズムに他の言語が及ぼす影響
Sébastien Goutal
—1月 07 2021
—0 分で読める
その他のメール脅威と異なり、BEC(ビジネスメール詐欺)のメールは、一般的に数行のテキストで構成されており、URLや添付ファイル、その他のスキャンできる要素を伴いません。その結果、メールセキュリティベンダーは、それがBEC攻撃の可能性のあるものかどうかを知るために、AIアルゴリズムにテキストの内容の分析を頼っています。
BECの検出に有効なAI分野の一つは、自然言語処理(NLP)です。NLPは、テキストを分析することで、緊急性を示す言葉を検出するだけでなく、電信送金や請求書の支払い、ギフトカードの要求などのBECでよく使われる言葉やフレーズにフラグを立てることができます。
過去を振り返っても、ほとんどのBECメールが英語で書かれています。ところが最近、私たちは、イタリア語、スペイン語、ドイツ語、スロベニア語などの言語で書かれたBECが増加していることに気づきました。この変化は、メールセキュリティにおけるAIの発展に対する戦略的な反応であり、英語優先のAIアルゴリズムにとって大きな課題となっています。
他の言語で書かれたBECの増加
他の言語で書かれたBECへの戦略の変更は、攻撃の全体的な高度化と一致しています。多くの悪意のあるメールは、依然として滑稽な間違いのある英語で書かれていますが、洗練された攻撃には、文法的なミスやその他のBECの決定的な兆候がありません。
さらに、ハッカーは、最初のメールで核心に踏み込むのではなく、むしろ被害者と気楽にやり取りを始めます。これには二つの理由があります。一つ目は、プリテキスティングを使うことで、被害者の警戒心が緩むからです。二つ目は、ハッカーとメールのやり取りをすることで、被害者は知らず知らずのうちに送信者が正規のものだとアルゴリズムに教えることになるからです。これにより、そのハッカーのメールアドレスはホワイトリストに登録される可能性があります。
NLPなどのAIアルゴリズムは、上記の手法をより確実に認識できるようになってきています。とはいえ、英語優先のアルゴリズムは、必然的に母国語でより高い効果を発揮し、他の言語で書かれたBECの認識ではあまり効果を発揮しません。
Timeの最近の記事で、Facebookのヘイトスピーチアルゴリズムの調査におけるこれらの問題が強調されています。Facebookは40ヵ国語で内容を分析できると報じられていますが、そのアルゴリズムは有害な投稿の80%しか検出できません。あえて言うなら、メールセキュリティにおける80%の検出率は悲惨かつ危険です。
他の言語分析で効果を発揮するために、AIアルゴリズムには、そこから学習するための膨大なデータセットが必要です。英語は世界で最も広く使われている言語であるため、メールセキュリティベンダーは、アルゴリズムを訓練するための豊富な英語データを保持している可能性が高くなります。英語以外の言語、とりわけグローバルではない言語のデータセットのサイズは非常に小さい可能性が高く、それはデータの質に影響を及ぼします。データセットが小さければ小さいほど、データの信頼性は低くなります。
AIアルゴリズムの言語能力を高めるためには、ベンダーはデータセットを増やすだけではなく、検出エンジンを更新するために多大なリソースを投資することも必要です。これは、非常に時間がかかるうえに高額です。そのうえ、常に新しいデータを使用し、標的言語の新しいサンプルによって絶えず更新されなければなりません。メールセキュリティベンダーが保護するメールボックスの数と世界的なフットプリントが、多言語の実際のメールサンプルを使って訓練されたAIアルゴリズムの質を示す最良の指標となります。