【マルチモーダルBEC】声と顔まで偽造する時代|会議の出席者が全員偽物かも
公開日:
※当サイトはアフィリエイトプログラムを利用しています。
声が聞こえた。画面に顔も見えた。会話も成り立った。それでも、全員偽物だった。
AIは、人間が本物と判断する根拠をすべて揃えられるほどになっています。
ビジネスメール詐欺(BEC)はメールだけでなく、声と顔まで偽造する複合型攻撃へと進化しているんですね。
前回の記事では、ビジネスメール詐欺(BEC)の基本的な手口と被害実態を取り上げました。
【ビジネスメール詐欺(BEC)の脅威】その取引先は本物ですか?
メールの文面は上手くできていて、それだけでも十分に危険ですが、現在の攻撃者は更に生成AIを組み合わせ、声と映像までを武器に加えています。
これをマルチモーダルBECと呼びます。
マルチモーダルBECはメール+音声の複合攻撃
この攻撃は、技術的な脆弱性を突くのではなく、人間の心理を操るソーシャルエンジニアリングです。
従来のBECは文字だけの勝負でした。
マルチモーダルBECが違うのは、メールで心理的な布石を打ったあと、CEOや役員のクローン音声による電話で追い打ちをかける点にあります。
攻撃の流れは以下の通り。
①音声データの収集と複製
攻撃者はターゲット企業の役員情報を調査し、YouTubeのインタビュー映像、IR説明会の録音、ポッドキャスト出演などから本人の生の音声を収集。
これをAI音声クローニングツールに学習させることで、精巧な偽音声データが完成します。
必要な音声サンプルは数秒程度で足ります。
上場企業の決算説明会、カンファレンス登壇、メディア露出の録音は、すべて攻撃者にとっての素材になるのです。
②メールで嘘の背景情報を先行注入
乗っ取り済みの正規メールアカウント、あるいは本物に酷似したなりすましドメインを使い、「極秘のM&A案件」「至急のベンダー支払い」といった緊迫感のある内容を財務・経理担当者へ送信。
この段階では送金を求めず、心理的な地ならしにとどめます。
③クローン音声による電話
担当者がメールを受け取り、判断を迷っているタイミングで偽の電話が。
「さっきメールした件、本当に時間がないんです。機密案件だから他の役員には言わず、今すぐ処理を進めてください。」と。
CEOの声で直接指示されたという事実が、担当者の脳内の警戒スイッチを強制的にオフにしてしまいます。
④正規プロセスの自発的スキップと送金
メールの文字だけでなく、本人の声で直接指示された(と思っている)担当者は、脳の警戒ロックが外れてしまい、社内の二重チェックや正規の承認プロセスを自らスキップ。
攻撃者の口座へ送金を実行してしまいます。
なぜ声で人間は騙されるのか
電話越しの音声が信じられてしまう背景には、聴覚認識に関する脳の特性があります。
電話回線を通る音声はデータ圧縮の過程で情報が間引かれており、厳密には本人の生の声ではないんですね。
それでも本人の声に聞こえるのは、脳が過去の記憶をもとに欠落した音を補完・再構築しているから。
つまり電話というフィルターを通すと、本物か偽物かの境界線は、もともと曖昧になっているというわけ。
攻撃者はこの脳の補完機能を利用します。この辺りの詳しい解説はこちらで
【AIボイスクローン詐欺】の恐怖 なぜ「声」だけであなたは騙されるのか?
さらに現在のAIは、犯人がマイクに向かって話した言葉をコンマ数秒のリアルタイムで本人の声質に変換して送出。
遅延がないことが、なおさら本人の声だと感じてしまう原因になっています。
一方的に録音を流す旧来の手口と違い、こちらの質問や疑問にも「本人の声」で即座に返答。
会話中に聴覚だけで偽物だと見破ることは、現状ほぼ不可能に近いといえます。
加えて攻撃者は以下の細工を重ねます。
電話番号偽装
専用ツールで着信画面に「CEOの携帯」「社長室」と表示させます。画面を見た瞬間、人間は警戒を解きます。
環境音の合成
「空港の喧騒」「車の走行音」など、CEOが「今いるはずの場所」に合わせた背景音をAIで生成。「出張先から急いで電話している」という状況の説得力を人工的に作り出します。
実際に起きたマルチモーダルBEC事件
実際に起きた事件は、私たちに教訓をもたらします。
WPP CEO偽装事件(2024年5月)/未遂
世界最大の広告グループWPPのCEO、マーク・リード氏を標的にした事件。
攻撃者はリード氏の公開画像を使ってWhatsAppアカウントを作成し、「関係者だけのMicrosoft Teams会議」に別の幹部を招待。
会議中、攻撃者はリード氏の音声クローンとYouTube上の映像を使ってCEOになりすまし、新事業への資金提供と個人情報の提供を要求したのです。
WPPの担当者が警戒し被害はありませんでした。
事件後、リード氏本人が社内向けに「パスポートの要求」「秘密の取引への言及」「資金移動の指示」といった文言を警戒サインとするメールを全社員に送った。
フェラーリCEO偽装事件(2024年7月)/未遂
フェラーリ役員のもとに、CEOのベネデット・ヴィーニャ氏を名乗るWhatsAppメッセージが届き、「極秘のM&A案件」と「為替ヘッジ取引」の実行を要求。
続いてヴィーニャ氏の南部イタリア訛りまで再現したクローン音声で電話がかかってきます。
声の再現精度は高かったのですが、役員はわずかに機械的なイントネーションがあることに気づき疑念を抱ていたのです。
そこで役員が取った行動は、本人確認の質問を一つ投げることでした。
「数日前にあなたが薦めてくれた本のタイトルは?」と。
正解は『The Decalogue of Complexity』(アルベルト・フェリーチェ・デ・トーニ著)。攻撃者は答えられず、電話を切り、事件は未遂となりました。
二つの事件に共通するのは、担当者が「何かおかしい」という違和感を無視しなかったこと。
そして詐欺を止めたのは、音声検知ツールでも映像解析AIでもなく、「その人物しか知りえない情報を一つ聞く」という、きわめてシンプルな行動でした。
AIはCEOの声も訛りも再現できる。しかし数日前に交わした雑談の中身までは知らない。
いつも書いていますが違和感は正しいのですよ。
ちなみに、どちらも「WhatsApp」が出てきますが、中国を除くインターネットユーザーの69%がWhatsAppを使っていt、2026年時点で33億ユーザーに達しています。
日本で浸透しているLINEのようなツールといった感じですね。
香港Arup社の事件(2024年2月)
声の偽造にとどまらず、リモート会議の映像ごと乗っ取る手口も記録されています。
設計会社Arupの香港オフィスで財務担当者が、CFOを含む複数の同僚が出席するビデオ会議に参加させられ、約2,500万ドル(約38億円)を送金。
画面に映っていた全員がディープフェイクでした。
この手口が機能する理由は三点あります。
目で見ているという絶対的な信頼
人間は声よりも顔(映像)を信頼します。リアルタイムで動き、自分の質問に答えている人物を偽物だと疑う認知的余裕は通常ありません。
複数人の偽造による集団心理の圧力
会議室内の全員が承認している状況に置かれると、「自分だけが疑うのはおかしいのではないか」という同調圧力が働きますよね。
言い訳の先回り
リアルタイム・ディープフェイクは、横向きや急な動きに追随できず映像が崩れることがあります。
攻撃者はあらかじめ「出張先のホテルのWi-Fiで電波が悪い」と一言入れておく。
被害者の脳は映像の乱れを通信環境のせいと解釈し、違和感を打ち消します。
こちらでは香港Arup社の事件を紹介しています。
見抜けるか?AIが仕掛けるディープフェイク詐欺と論文不正の衝撃
2026年現在の派生パターン
資金詐取以外にも、以下の亜種が確認されています。
ヘルプデスクへの多要素認証リセット要求
役員のクローン音声で情報システム部門に電話し、「出張先でスマートフォンを紛失した。多要素認証を一時的に無効化してほしい」と要求します。
メールアカウント侵害の足がかりとして音声クローンが初期侵入に使われるケース。送金より目立ちにくいぶん、発覚が遅れやすくなります。
暗号資産への即時分散
送金指示の段階で追跡困難な暗号資産やステーブルコインを指定。
着金後、数着金後、数分以内に複数の口座へ自動的に分散・撹乱され、資金の追跡がほぼ不可能な状態に。
従来の銀行振込より資金回収がさらに困難になります。
マルチモーダルBEC対策は技術よりプロセス
AI音声検知ツールや映像解析ツールも開発されていますが、攻撃側の進化スピードが速く、技術的対策だけで追いつける状況ではありません。
現実的な防衛線は人間の判断と習慣に置く必要があります。
冒頭にも書いたように、この攻撃は、技術的な脆弱性を突くのではなく、人間の心理をに操るソーシャルエンジニアリングですからね。
別経路での折り返し確認の徹底
どれだけ本人の声・顔に見えても、金銭や権限が動く指示には即応しない。
かかってきた番号ではなく、社内名簿に登録された正規番号へこちらからかけ直すルールを明文化します。
「折り返しは失礼」という慣習より、組織の損失回避を優先する文化が必要になります。
本人しか知らない情報による確認
フェラーリの事件が示したのは、声の品質を耳で判定しようとするのではなく、「AIには答えられない個人的な文脈」を確認することの有効性です。
経営幹部と担当者の間で、普段の会話の中にしか存在しない確認用の質問や合言葉をあらかじめ共有しておく。
それが確認できない場合は指示を保留する運用とします。
緊急や機密こそプロセスを維持する
「社長特命」「今すぐ」「他には言うな」という三点セットが揃ったとき、それは詐欺師の常套句と認識してください。
緊迫した状況ほど例外処理を禁止し、複数人承認フローを維持します。
WPP事件後にリード氏が全社員に送ったメールでも、「秘密の取引」への言及そのものを警戒サインとして明示していましたね。
映像の崩れを意図的に誘発する
リモート会議で不審を感じた場合、「画面の前で手を振ってもらえますか」「少し横を向いてみてください」と言ってみる。
現状のリアルタイム・ディープフェイクは急な動きへの追随が弱く、映像が乱れる可能性がありからです。
マルチモーダル前提の模擬訓練
メール単体のフィッシング訓練にとどまらず、「メールの後に偽の上司から電話がかかってくる」「Web会議に全員ディープフェイクで現れる」というシナリオを含む実践的訓練を実施します。
頭で理解しているつもりでも、実際に「上司の声で電話がかかってくる」場面に直面すると、人間は想定外に動揺するものです。
訓練の目的は知識の習得ではなく、「おかしいと感じたら即座に電話を切る」という反射を身体に刻むことでもあります。
まとめ
BECはメールの文面を巧妙にする文字の詐欺から、声(聴覚)と映像(視覚)を同時に偽造する複合型攻撃へと進化しました。
WPPやFerrariの事件は、被害を防いだのが最新の検知技術ではなく「おかしい」という違和感と、AIには答えられない人間的な文脈の確認だったことを示しています。
「画面の向こうの上司を疑う」という行動は心理的コストが非常に高いものです。
だからこそ、疑う・疑わないという個人の判断に依存せず、金銭や権限が動く場面では必ず別経路での確認が発動する構造的なルールを組織に埋め込むことが、現時点で最も現実的な防衛策となります。
なお、攻撃者が介在せずAI自体が自律的に詐欺電話をかける「ScamAgent」という新たな脅威も論文レベルで実証されています。
これはまた別次元の話になるため、こちらにまとめています。
あわせて読みたい
【ScamAgent】とは?AIが世界一の詐欺師になるかもしれない
企業口座が狙われている!中小企業を標的にするボイスフィッシングの手口と対策
フィッシング被害に遇ったら?フィッシングを防ぐ確実な方法とは
