フィッシング検出の課題（パート1）

Sébastien Goutal

—

6月 14 2022

—

1 分で読める

これは、大規模なフィッシング攻撃を検出する際に、精度とパフォーマンスに制約があることによって、当社が直面した課題についての三部シリーズの最初の記事です。最初の記事では、メールストリームを取り上げて、主に、疑わしいリンクを識別してそれに関連するWebページからコンテンツを取得する方法について説明します。次の記事では、教師あり学習の手法に焦点を当てて、疑わしいWebページをリアルタイムでどのように分析し、評価するのかについて説明します。最後の記事では、ディープラーニングとComputer Visionを活用して追加の情報を抽出し、より複雑なケースの検出を自動化する方法を明らかにします。

候補URLの選択

Vadeは、世界中で10億個以上のメールボックスを保護している結果、毎日平均で10億件以上のURLを収集しています。各URLをスキャンすることは技術的に不可能なため、複数のクライテリアに基づくフィルタリング手法が実装されており、最も関連性の高いURLのみが抽出されてスキャンされます。

まず、URLドメインのレピュテーションが考慮されます。ドメインのレピュテーションは、このドメインに関連付けられていて過去に検出されたことのある悪意のあるURLの比率に大きく左右されます。ドメインがよく知られているからといって、そのドメインのレピュテーションが高いわけではありません。

URL短縮サービスドメイン（Bitly、TinyURLなど）、Webホスティングサービス（Weebly、Yolaなど）、ファイルホスティングサービス（Dropboxなど）のような、多くの有名なドメインがサイバー犯罪者によって悪用されています。おそらく世界で最も知られているドメインであるgoogle.comでさえ、悪用されて悪意のあるコンテンツにリダイレクトされる可能性があります。

未知のドメインには過去のレピュテーションデータが付属していないため、疑わしいものと見なされます。「バースト」活動も、サイバー攻撃の典型的な手口であるため、疑わしいと見なされます。この場合、各URLをスキャンする必要がないため、ランダムサンプリングが実行されます。サンプリングは定期的に実行され、有効化が遅れているフィッシングWebページを検出できるようになります。

最後に、URLのソースを検討します。特に、エンドユーザーから検出漏れとして報告されたメールやスパムトラップにヒットしたメールが優先的に処理されます。このフィルタリングの後、スキャンの準備が整ったURLのリストが作成されます。平均すると、VadeのURLスキャナーは1日あたり2000万件以上のURLを処理しています。これは、収集されたURLの合計の5％に相当します。

「巻き添え被害」への対応

URLをスキャンすると、メーリングリストからユーザーの登録を解除するなど、予期しない結果が生じることがあるため、これらの潜在的な巻き添え被害の可能性を制限することが重要です。これらの被害を抑える1つの方法は、複数のユーザーが同じリンクを受信したかを確認することです。複数のユーザーが同じリンクを受信していれば、そのリンクに個人データが含まれている可能性はほとんどありません。ただし、この方法にはいくつかの欠点があります。複数のユーザーが同じリンクを受信したことを確認するために待ち時間が発生し、「パーソナライズされた」フィッシングリンクはスキャンされないため、リンクの処理が遅れます。たとえば、次のRoyal Bank of Canadaのフィッシングキャンペーンは、各リンクがURLパス内のランダムな16進トークンでパーソナライズされているため、検出されません。

Final-The Challenges of Phishing Detection

図1. 各フィッシングURLは固有のものです

Final-The Challenges of Phishing Detection 1

図2. Royal Bank of Canadaのフィッシング

当社のスキャナーは、特許を取得した別の技術を使用しています。候補URLのファイルパスとクエリ文字列を分析し、ユーザにリンクされている可能性のある要素を識別します。次に、これらの要素は、長さ、エンコードタイプ（10進数、16進数、Base64など）、大文字小文字など、元の要素の形式を尊重してランダムに生成された要素に置き換えられます。URLが安全かつ個人データが含まれているものである場合、書き換えられたURLをスキャンしても、巻き添え被害は発生しません。変更された要素がデータベースに見つからないため、WebサイトはHTTP 4xx client errorを返す可能性があります。URLがフィッシングURLの場合、要素はデータベースと照合されないため、フィッシングキットによって引き続き受け入れられます。最悪の場合には、通常の表現または同等の制御メカニズムを適用して、URL形式が有効であることを確認します。

Final-The Challenges of Phishing Detection 2

図3. 巻き添え被害を防ぐために、16進要素がオンザフライで生成されています

クローキング技術の回避

候補のURLを評価するには、URLを「スキャン」する必要があります。つまり、HTTP GET操作を実行して、URLに関連付けられたHTMLコンテンツを取得しなければなりません。まず、最終的なフィッシングWebサイトに到達する前に、スキャナーがHTTPリダイレクト、メタリフレッシュリダイレクト、JSリダイレクトなどの1つ以上のリダイレクトに従わなければならない場合があります。最終的なフィッシングWebページに到達すると、他のHTTPクライアントと同様に、スキャナーはそのIPアドレスを公開し、HTTP GET操作を実行する際にUser-AgentやAccept-LanguageヘッダーなどのHTTPヘッダーを設定することがあります。

これらのデータを使用してユーザー体験をパーソナライズするWebサイトがたくさんあります。たとえば、接続が特定の国から発信されている場合、ユーザーはその国の特定のWebサイトにリダイレクトされ、コンテンツは一般的な言語で配信される可能性があります。同様に、User-Agentヘッダーは、Webサイトの閲覧に使用するデバイスとソフトウェアを指定し、Accept-Languageは、そのユーザーに適した言語とロケールを定義します。これにより、Webサイトはエンドユーザーに合わせたコンテンツを提供できるようになります。

フィッシングキットは、程度は低いものの、パーソナライズされたコンテンツを提供する可能性もありますが、これらのデータを使用して、ボットやセキュリティスキャナーによる検出を阻止することもあります。この時点でフィッシングキットを3種類に分類できます。

1つ目の最も洗練度の低いものは、HTTPクライアント接続パラメータに関係なく、Webページのコンテンツを返します。2つ目の種類は、より一般的なもので、特定の条件が満たされない限り、フィッシングWebページのコンテンツを返します。たとえば、接続しているIPアドレスやHTTPヘッダーをフィルタリングする場合があります。このキットの目的は、ボットを検出してHTTPエラーコードを返したり、ボットが検出された場合にGoogleなどの別のWebサイトにリダイレクトしたりすることです。

3つ目の種類のフィッシングキットは、最も珍しく最も洗練されたものです。デフォルトでは「すべて拒否」ポリシーが適用され、一連の条件が満たされた場合にのみフィッシングWebページのコンテンツが返されます。この種類のフィッシングキットは、検出が最も困難です。しかしながら、条件が厳しすぎる場合は見込める被害者数が限定されるため、広く普及していません。必要な条件の一例として、被害者が特定の国から特定のデバイスで接続しなければならないことが挙げられます。

2つ目の種類のフィッシングキットの例として、ボットを阻止するためのフィルタリングを実装した最近のWells Fargoのフィッシングキットを見てみましょう。このキットは最初に接続IPを既知のIPアドレス範囲のリストと比較します。これらのIPアドレス範囲は、セキュリティベンダー、ホスティング会社、およびその他の組織に関連付けられています。接続しているIPがリストされた範囲のいずれかに属している場合、キットはHTTP 404 errorを返します。

Final-The Challenges of Phishing Detection 3 図4. フィッシングキットによって検出されたセキュリティベンダーのIPアドレス範囲

このキットは、接続しているIPに関連付けられているホスト名に対する追加のフィルタリングも実行します。実際、IPアドレス範囲のリストは、網羅的でも最新でもない可能性があるため、ハッカーは、DNSレコードに命名パターンを適用している組織が数多く存在するという事実を利用しています。

キットは、最初にgethostbyaddr（）PHP関数を使用してIPに関連付けられたホスト名を取得し、次にその値をセキュリティベンダーや組織、テクノロジー企業、Torネットワークを含むキーワードのリストと比較します。値がこれらのキーワードのいずれかに一致する場合は、もう一度HTTP 404 errorが返されます。

Final-The Challenges of Phishing Detection 4

図5. 逆引きDNSルックアップとホスト名のフィルタリング

このキットは、HTTP User-Agentヘッダーもチェックします。User-Agentは、HTTPクライアントが自身を識別するために使われます。たとえば、エンドユーザがコンピュータやスマートフォンでブラウジングする場合、User-Agentは通常、デバイス、OS（iOS、macOS、Windowsなど）、ソフトウェア（Safari、Firefox、Chromeなど）を記述します。キットの目的は、Webクローラーやその他の自動化されたプロセスなどのボットによる接続を検出することです。ここでキットは、User-Agentを、既知のWebクローラー（Googlebot、Bingbotなど）を含むキーワードのリストと比較します。前述のとおり、キットは一致した場合にHTTP 404 errorを返します。

Final-The Challenges of Phishing Detection 5

図6. HTTP User-Agentヘッダーのフィルタリング

フィッシングキットは、スクリプト、IPアドレス範囲のリスト、キーワードなど、さまざまなフィルタリングメカニズムを利用します。ハッカーたちは互いに協力しているわけではないため、フィッシングエコシステムは協同的というよりも競争的であると想定するのが妥当です。特定のセキュリティベンダーのIPアドレス範囲が1つのフィッシングキットでブロックされているのならば、他のフィッシングキットでもブロックされていることになります。ただし、しばらくすると、フィッシングエコシステム内で特定のIPアドレス範囲が認識される可能性があります。

これらの課題に対処するために、当社のスキャナーは、フィッシングキットによって識別される可能性を大幅に抑えられるいくつかのメカニズムを実装しています。まず、さまざまなIPアドレス範囲に分散していて、10か国（日本、米国、ニュージーランド、オーストラリア、ブラジル、フランス、英国、ドイツ、イタリア、スペイン）に位置するさまざまなIPアドレスを使用します。さらに、各IPアドレスのDNSレコードはフィッシングキットにアラートを発しないため、住宅用IPアドレスと間違われる可能性があります。スキャナーの効率を長期にわたって維持するために、当社はフィッシングキットを定期的に収集して分析しています。フィッシングキットをホストする侵害されたWebサイトには安全対策が施されていない場合があるため、フィッシングキットの収集が可能です。

各キットは自動的にチェックされ、当社が使用するIPアドレス、IPアドレス範囲、およびDNSレコードが知られていないことを確認します。その場合は、それに応じて行動し、キットが認識していないDNSの命名パターンを備えた新しいIPアドレスを購入します。さらに、当社のスキャナーは、iPhoneのSafari、WindowsのChromeとFirefoxなど、最も一般的なデバイスやOS、ブラウザの組み合わせをモデル化したUser-Agentsのプールを使用します。したがって、User-Agentのフィルタリングメカニズムは回避されます。

特定の条件のセットに一致しない限り、すべてのHTTP接続を拒否する最も洗練された種類のフィッシングキットに関して、特定のメール内の疑わしいURLをスキャンするのに最適なHTTPパラメータを決定するアルゴリズムを設計しました。これらのパラメータには、IPアドレスのジオロケーション、User-AgentのようなHTTPヘッダー、Accept-Language、リファラーを組み込むことができます。このアルゴリズムは特許を取得しており、最も洗練されたフィッシングキットが当社のスキャン技術に対して防御的な行動を取る可能性を抑えます。

特許に記載されているフィッシングメールの例を見てみましょう（図5）。この攻撃はイタリアの状況に特有なものだといういくつかの手がかりがあるため、このフィッシングメールはイタリアのユーザーのみを標的にしている可能性が非常に高いです。このフィッシングメールは、INPS（Istituto Nazionale Previdenza Sociale）と呼ばれるイタリアの公的年金制度の主要機関になりすましており、メールのテキストコンテンツはイタリア語で書かれ、送信者のメールアドレスのTLDは「it」になっています。これらの要素を考慮して、アルゴリズムは、地理位置情報がイタリアになっているIPアドレスからスキャンし、Accept-Languageヘッダーを「it-IT」言語コードに設定することが最善の戦略であると判断します。候補URLのWebページを取得すると、コンテンツを分析して、それが悪意のあるものであるかどうかを判断します。

次の記事では、当社のスキャナーがリアルタイムで使用するさまざまなテクノロジーをご紹介し、教師あり分類の手法についてより具体的に説明します。

フィッシング検出の課題（パート1）

候補URLの選択

「巻き添え被害」への対応

クローキング技術の回避

ブログを検索する

関連ブログ記事

カテゴリー

フィッシング検出の課題 （パート1）

候補URLの選択

「巻き添え被害」への対応

クローキング技術の回避

ブログを検索する

関連ブログ記事

カテゴリー

関連ブログ記事

フィッシング検出の課題（パート1）