### 11. SGX攻擊編④

Ao Sakurai

2025年度セキュリティキャンプ全国大会 L3 - TEEビルド&スクラップゼミ

#### 本セクションの目標



• SGXに対する過渡的実行攻撃の内、「ZombieLoad」「Downfall」 を紹介する

これらの攻撃は実践するには極めて高度であるため、あくまでも 本ゼミでは解説を行うに留める

# ZombieLoad

#### マイクロコードアシスト



- フォールトの処理やページテーブルの内容の変更のような 複雑な操作は、通常事前に定義されたマイクロコードルーチン に対してマイクロシーケンサを向けさせる
  - マイクロシーケンサ:命令処理に使用するマイクロ命令の組み合わせを 決定する機構
- その後、実行ユニットはイベントコード(マイクロコード)イベント時の例外処理コード)を例外の起きたマイクロ命令に関連付け、そのイベントコードに対応するマイクロ命令を読み出す
- ・上記の一連の処理により、例外や複雑な操作の処理を行う マイクロコード上の機能をマイクロコードアシストという

# Intel TSX (1/2)



- Intel TSX: Intel Haswell CPUで導入された、トランザクション 処理のためのx86拡張命令セット
  - Transactional Synchronization Extensionsの略

特定のコード領域をトランザクション的(排他処理的)に実行し、 そのコード領域全体が正常に完了した時点で、そのメモリ操作を アトミックなコミットとして他の論理CPUに反映させる

# Intel TSX (2/2)



トランザクション処理中に何らかの問題が発生した場合、 アトミック性を保つためにTSXアボートを発動させる

- TSXアボートが発動すると、実行自体をトランザクション前のアーキテクチャ状態にロールバックし、トランザクション領域で実行された全ての操作を破棄する
- TSXアボートは、トランザクション内で変更されたアドレスから 別の論理CPUから読み書きする事による競合的なメモリ操作等、 様々な問題によって誘発される

# ZombieLoad (1/2)



- ロード操作時にフォールトやマイクロコードアシストが 発生した際に、過渡的実行ウィンドウにおいてLFBに存在する 古い値が漏洩する事が観測された
  - LFBは全ての論理CPUによって使用され、プロセスや権限の区別を 行わない点にも注意
- このようなLFBからの漏洩を発生させるロード(ゾンビロード)を 悪用し、過去に使用された秘密情報を漏洩させる過渡的実行攻撃が

ZombieLoadである

## ZombieLoad (2/2)



- L1DとL2以上のメモリ階層とのインタフェースとして機能する LFBからの漏洩であるため、攻撃の直前では原則としてキャッシュの クリアを行い、LFB経由でメインメモリからフェッチさせる
  - ・これにより、フェッチに伴いLFBにもそのデータが残留する

Meltdownのようにアドレスで漏洩対象を選択する事は出来ない。 良くも悪くも、直前にロードやストアされた任意のデータの漏洩であるため、この特性を上手く使ってやる必要がある

#### ZombieLoadの原因



 ZombieLoadの漏洩の原因だが、MeltdownやForeshadow、 他のMDS攻撃であるRIDLやFalloutと異なり、実は根本原因が 明らかになっていない

論文ではStale-Entry仮説というものを立てているが、その実証については見送っている

# Stale-Entry仮説(1/2)



マイクロコードアシストが発動されると、命令パイプラインを フラッシュするマシンクリアが発生し、また既に実行中の命令に ついても強制終了させる

言うまでもなくかなりの遅延が発生するため、その遅延を最小限に抑えるべく、物理アドレスの一部が一致する限り、フィルバッファエントリ (LFBのエントリ)が過渡的領域で楽観的にマッチングされると予想される

# Stale-Entry仮説(2/2)



- この楽観的なマッチングにより、あるロードで例外が発生すると、 直前のロードやストアで有効だったような誤ったLFBエントリで 過渡的に処理が続行され、その値の漏洩が発生する
  - ・本来もう使われてはならない古い値を使用する事になるため、これは Use-After-Free脆弱性である
- ・LFBは、前述の通り**論理CPU(ハイパースレッド)間で競合的に 使用される**事がIntelにより文書化されている
- よって、古いLFBエントリは並行するハイパースレッドからも 漏洩を行う可能性がある
  - ちなみに、並行するハイパースレッドの事をシブリングスレッドや シブリング論理コア/CPUと呼ぶ
  - ・シブリングスレッドから漏洩を行う攻撃の方が寧ろ多い

#### ZombieLoadにおける漏洩元(1/5)



• ZombieLoadにより漏洩する値がどこから来ているのかについても 論文中で具体的に検証されている

- まず、あるページをキャッシュ不可(Uncacheable)とし、 既存のキャッシュをフラッシュする事で、そのページからの メモリロードは全てキャッシュ階層を迂回するように仕向ける
  - こうする事で、毎回メインメモリから直接LFBに向かう事になり、 キャッシュには値が残らないがLFBには残る状態になる

### ZombieLoadにおける漏洩元(2/5)



 この状態でZombieLoadを実行すると、i7-8650Uで1秒あたり 平均5.91B/sのレートで漏洩が発生したため、この漏洩はLFBに 由来するものであると帰着できる

 この時、MEM\_LOAD\_RETIRED.FB\_HITというLFBヒットを示す パフォーマンスカウンタが数千回を示していたため、間接的に LFB由来である事を裏付けている

## ZombieLoadにおける漏洩元(3/5)



- しかし、全ての漏洩がLFB由来であるかというと実はそうでは なさそうであると論文中で仮説を立てている
  - 同じMDS攻撃の一員である**RIDL**の論文における結論や、Intelによる 攻撃分析レポートでは、LFBからのみ漏洩するとしていた

LFBへのリクエストやアクセスが発生しない状況を作るために、 TSXのトランザクション処理を使用する

### ZombieLoadにおける漏洩元(4/5)



- トランザクション内部で書き込みを行う場合、使用するデータが書き込みセット内に存在している必要がある
  - 書き込みセットは必ずL1キャッシュ内に存在していなければならない
- 処理中に書き込みセットからデータを退避するとTSXアボートが 発動されるため、トランザクションにおけるデータは確実に L1キャッシュから提供される

L1キャッシュはLFBよりもCPUの中心に近い位置に存在するため、 L1から提供される限りLFBへのアクセスが発生する事は無い

#### ZombieLoadにおける漏洩元(5/5)



- このように、LFBへのアクセスを封じた状況でも、ZombieLoadによるデータの漏洩が確認された
  - ・数kB/sというかなりの漏洩レートが観測されている
  - LFBからの漏洩を間接的に示すMEM\_LOAD\_RETIRED.FB\_HITや MEM\_LOAD\_RETIRED.L1\_MISSパフォーマンスカウンタは増えていない
  - 一方、MEM\_LOAD\_RETIRED.L1\_HITは数千回を記録している
- よって、少なくとも漏洩はLFBからだけではない事は分かるが、 具体的にどこから漏洩しているかは不明
  - ・紛らわしいが、上記の漏洩が**L1から来ているとは限らない**
- LB等の他のµ-Archバッファが関与している可能性があるが、 詳細は不明

# データサンプリング(1/5)



- ZombieLoad (やRIDL) は、前述の通りアドレスで漏洩対象を 指定する事はできない
  - かつ、ZombieLoadで漏洩する値は、例外の発生したアドレス上の値に 由来するものではない。あくまでも直前にロードやストアされた値が 漏洩する
- しかし、ZombieLoadを発動させるロードに渡す仮想アドレスの 下位6bit(=64通り表現可能)により、LFB(サイズは64B)内の どのエントリを使用するかをバイト単位で一意に指定する事が出来る
- よって、ZombieLoadでは**直前のロードやストアの値**を、
   この**下位6bitによる指定**と組み合わせながらLFBから漏洩させる事が 肝となる

# データサンプリング(2/5)



• 様々なMeltdown型攻撃において、漏洩対象のどこまでを攻撃者が明示的に指定できるかを表した図([1]より引用)

|             |       | Page Number         | Page Offset |
|-------------|-------|---------------------|-------------|
| Meltdown    | 51    | Physical<br>Virtual | 12 11 0     |
| Foreshadow  | 51 47 | Physical<br>Virtual | 12 11 0     |
| Fallout     | 51 47 | Physical<br>Virtual | 12 11 0     |
| ZombieLoad/ | 51    | Physical            | 11 6 5      |
| RIDL        | 47    | Virtual             | 12          |

# データサンプリング(3/5)



- ところで、従来のメモリベースのサイドチャネル攻撃は、メモリアクセス位置を特定し、実行時間等からその時点での処理で使用されている秘密情報を漏洩させる
  - 早い話、「この実行時間でこのアクセスパターンならこの値がこの処理で使われているに違いない」といった推測が可能
  - ・メモリアクセス位置と実行中の処理(命令ポインタにより管理される)の 実行時間を照らし合わせて秘密情報を推測するため、メモリアクセス位置と 命令ポインタを関連付けるような攻撃である
- 一方、Meltdownは本来アクセスしてはならないアドレスに過渡的にアクセスする事で、その値をサイドチャネル的に観測する
  - キャッシュに痕跡を残す必要はあるとはいえ、こちらは対象アドレスから データを比較的直接的に引きずり出している

# データサンプリング(4/5)



一方、ZombieLoadは**直前の処理(命令ポインタ**が現在指しているよりも前の命令)で使用されたデータを、LFB内からバイト単位で任意に指定して漏洩させる事ができる

よって、言わばZombieLoadは命令ポインタ(直前の処理)とデータを関連付けるような攻撃と言える

そして、このような攻撃の事をデータサンプリング攻撃と呼ぶ事にしている。ZombieLoad、RIDL、Falloutは全てµ-Arch上でこれを行うため、MDS攻撃(Microarchitectural Data Sampling)と命名されている

# データサンプリング(5/5)



• 命令ポインタ、データ、アドレスを、それぞれの攻撃(従来型、 Meltdown、データサンプリング攻撃)がどのように関連付けて いるかを表した図([1]より引用)



#### RIDLとの比較



・比較的ZombieLoadと類似しているMDS攻撃であるRIDLとの 比較表は以下の通り(バリアントについては後述):

|                       | RIDL                      | ZombieLoad           |
|-----------------------|---------------------------|----------------------|
| 漏洩元                   | LFB、LP                    | (少なくとも)LFB           |
| 漏洩の発生するロード            | キャッシュされないロード<br>操作のみ(LFB) | 全てのロード (LFB)         |
| 漏洩の発生するストア            | 全てのストア (LFB)              | 全てのストア (LFB)         |
| 既知のバリアント数             | 1か2                       | 5                    |
| 悪用されているフォールト          | ページフォールト                  | マイクロコードアシスト、ページフォールト |
| 軽減策で修正済みか             | はい                        | いいえ                  |
| MDS耐性のあるCPUで<br>動作するか | いいえ                       | はい (バリアント2)          |

## 攻撃シナリオと攻撃モデル(1/3)



ZombieLoadはSGXだけを侵害するための攻撃ではないため、 様々なシナリオにおいてデータの漏洩を行う事ができる。

#### ■ユーザ空間からの漏洩

非特権攻撃者が、同時実行中の**他のユーザ空間アプリケーション**によって**ロードやストアされた値を漏洩**させる**プロセス間攻撃**に 悪用可能。攻撃者は攻撃対象の**シブリングスレッド**で動作する

#### ■カーネル空間からの漏洩

非特権攻撃者は、**カーネル空間で実行**された**ロードやストアで 使われた値**も**漏洩**可能。攻撃者はシブリングスレッドだけでなく、カーネルからユーザへの**コンテキストスイッチ**時に、攻撃対象と **同一論理コア上**で攻撃を行う事もできる。

## 攻撃シナリオと攻撃モデル(2/3)



#### ■ Intel SGXからの漏洩

**SGXのEnclave内部**で実行されたロードとストアから漏洩させる事も可能。勿論、**Enclave内データを対象としていても同様**。 攻撃者は攻撃対象(Enclave)の**シブリングスレッド**で動作する。 SGXの脅威モデルの性質上、**特権攻撃者**を前提とする。

#### ■仮想マシンからの漏洩

VMの境界を超えて、他のVMのロードやストアから漏洩させる事もできる。攻撃者VMは攻撃対象VMのシブリングスレッドで動作する。攻撃者は信頼不可能な仮想マシンの内部で実行しているため、特権攻撃(ゲストページのPTE変更等)を行う事が可能。

※PTE:ページテーブルエントリ(Page Table Entry)

## 攻撃シナリオと攻撃モデル (3/3)



#### ■ハイパーバイザからの漏洩

VM内の攻撃者が、**ハイパーバイザ**がロードやストアする値を漏洩 させる事もできる。

こちらも**信頼不可能なVM内で実行**しているため、**特権コードの実行**を 制限されない。

#### 攻撃バリアント



- ZombieLoadには、具体的な攻撃アプローチとして5つのバリアント (変種)が存在し、それぞれゾンビロードを誘発するための方法が 異なっている
  - ・論文中の実践的な攻撃実験でよく使われているのはバリアント1~3

## ZombieLoad v1 – カーネルマッピング(1/5)



あるユーザ空間の仮想メモリページvがアーキテクチャ的に正しく物理アドレスpを指している状態であるとする

・この時、**カーネルページ**または**アクセス不能**な**仮想メモリページk**を 用意し、kも物理ページpを指すように仕向ける

## ZombieLoad v1 – カーネルマッピング(2/5)



- この状態でvからキャッシュをクリアしながら、ユーザ空間からkにアクセスするとマイクロコードアシストが発生し、過渡的にLFBから直近のロードやストアで使用された値が漏洩するゾンビロードが発生する
  - LFBからの漏洩を確実にするため、キャッシュクリアとアクセス(ロード)は同時に行う必要がある[3][4]
  - ただし、このバリアント1はMeltdown耐性を**有するマシン**では**無力**である
- キャッシュのインデックス付けは(大抵は)**物理アドレスを基準に行われる**[2]ため、vのキャッシュフラッシュはkのキャッシュフラッシュと**同義**である

# ZombieLoad v1 – カーネルマッピング(3/5)



- カーネルは、カーネルの仮想メモリが特定の仮想アドレス(ベース アドレス)から始まるようにし、かつ搭載メモリ分だけ物理メモリに 直接マップする(Direct Physical Map; ダイレクト物理マップ)
- このカーネルのベースアドレスを基準とし、物理アドレスpを オフセット的に使用する事で、仮想カーネルアドレスであるkを 攻撃者が取得する事ができる

・物理アドレスpは、/proc/pageinfoから取得する(要特権)、 PTEditorを用いる(非特権で可能[4])、別の**サイドチャネル攻撃で 奪取**する等により入手する事ができる

### ZombieLoad v1 – カーネルマッピング(4/5)



- ユーザ空間メモリはプロセスごとに物理メモリにマップされる 一方で、カーネルメモリは物理メモリ全体に丸ごとマップされるため、 ユーザページとカーネルページは重複し得る
  - PTEのU/Sビット等により、アクセス違反が発生しないよう管理している



### ZombieLoad v1 – カーネルマッピング(5/5)



• カーネルは、通常2MBの巨大なページでマッピングされるため、vに対応する物理ページを、kに対応する巨大な物理ページが 覆い被さるようなイメージとなる(図は[1]より引用)



#### ZombieLoad v2 – Intel TSX (1/2)



- ・ある仮想アドレスvを通してユーザがアクセスできる物理アドレスpが存在するとする
  - ユーザ空間に割り当てられた任意のページがこの要件を満たすため、 前提とするまでもない普遍的な状態である

- その状態で、シブリング論理コア等からTSXトランザクション内の 読み取りセットに競合を発生させ、その上でトランザクション内で 正当なロードを実行させ、TSXアボートを誘発する
  - 競合の誘発は、前述の通りトランザクションに使用するデータの変更等によって行う事ができる

### ZombieLoad v2 – Intel TSX (2/2)



TSXアボートにより、TSXはフォールトし結果がコミットされなくなるが、このフォールトはアーキテクチャ的なフォールトではなく、 ソンビロードにつながる過渡的なフォールトである

- このバリアント2は、Meltdown耐性のあるマシンや、論文執筆当時 MDS耐性があるとされていたマシンでも動作する点が明確な強み である
  - ただし、言うまでもなくマシンがTSXをサポートしている必要がある

# ZombieLoad v3 – 特殊なページテーブルウォーク(1/2)



- ・ある1つの**物理ページp**を同時に指す、2**つの別々の仮想アドレス** $v,v_2$ が存在するとする
  - 共有メモリやメモリマップトファイルのように、2つの別々のプロセスから 同じ位置のデータ(物理ページ)にアクセスする状況を考えると 分かりやすい
- vからはpにアーキテクチャ的に**正当にアクセスできる**とする
- 一方、 $v_2$ についてはPTEのAccessedビット(Aビット)を0にする
  - **Aビット**: そのページが使用された場合に1になるPTE上のビット
  - LinuxではAビットのクリアには特権が必要だが、Windowsでは定期的に これをクリアする事が確認されている

# ZombieLoad v3 – 特殊なページテーブルウォーク(2/2)



対応するPTEのAビットが0の状態でページにアクセスすると、 Aビットを立てるためにマイクロコードアシストが発行される

- 前述の通り、LFBからの漏洩を確実にするにはキャッシュがフラッシュされた状態を維持しなければならないため、vでキャッシュフラッシュするのと同時にv2ヘアクセスする
  - 前述の通り、キャッシュは物理アドレスを基準にインデックス付けされる という点に注意。vのフラッシュはv2のフラッシュと同義
- この状態でv<sub>2</sub>にアクセスを行う事で、マイクロコードアシストを 誘発し、かつキャッシュが確実にクリアされているのでLFBからの ゾンビロードを誘発する事ができる

#### ZombieLoad v1~3を実行できる環境



・バリアント1~3がそれぞれどのような環境と権限で実行可能であるかをまとめた表を以下に示す([1]より引用):

• 黒丸: 実行可能、**白黒半分ずつの丸**: 特定のHW構成で可能、**白丸**: 実行不可



### ZombieLoad v4 - アボートページセマンティクス(1/3)



- Enclave内のメモリに対して外からアクセスすると、読み出し値は 0xffとなり、書き込みは無効化される
  - ・この挙動をアボートページセマンティクス(APS)という
- ・具体的には、非EnclaveモードでEnclaveメモリにアクセスすると、アドレス変換結果が上記のような無効化挙動を取るアボートページに置換されるが、この置換処理はマイクロコードアシストが行う

• ここで、Enclaveの物理アドレスpにマッピングされた $footnote{0}$ であるとする

## ZombieLoad v4 - アボートページセマンティクス(2/3)



Enclave外からvにアクセスするとAPSが発動するが、APSの適用前に、直前に(シブリングスレッドが)ロードまたはストアした値であるLFBエントリを過渡的に漏洩させるゾンビロードが発生する

- ・論文における攻撃の動作確認実験では、TSXトランザクション内で 前述のようなvにアクセスしてゾンビロードを発動させている
  - Foreshadowでも使われている手法だが、TSXトランザクション内で実行すると、OSのフォールト処理に伴う、キャッシュやその中間経路であるLFBの**汚染を抑制**する事ができる

### ZombieLoad v4 - アボートページセマンティクス(3/3)



- ・このバリアント4では、pのキャッシュを**フラッシュ**する代わりに、TSXトランザクションを行う前に**単にアクセスするだけ**で良い事も確認された
  - APSの処理がキャッシュ階層内で完結しない、つまりどのような場合でも LFBを通る仕様であると予想されるため、キャッシュクリアしなくても LFBから漏洩するのであると考えられる

マイクロコードアシストの誘発にSGXのAPSを用いているだけであるため、攻撃対象のLFBエントリはEnclave由来のものでなくても構わないという点に注意

#### ZombieLoad v5 - キャッシュ不可メモリ



バリアント4ではSGXのEnclaveメモリを用いていたが、代わりに キャッシュ不可メモリ[6]にアクセスする事でも同様にして ゾンビロードを誘発可能

- キャッシュ不可であるようなページにアクセスすると、ページミス ハンドラがマイクロコードアシストを発動させる挙動を利用している
  - ページミスハンドラ: TLB(PTEのキャッシュのようなもの)に対象の 仮想アドレスが存在しない場合に、ページテーブルを参照して解決を図る ページウォークを行う機構[7]

### パフォーマンス評価(1/2)



様々なCPUのマシンにおける、バリアント1~3の動作状況。
 "✓"は動作する事、"X"は動作しない事、"-"はTSXがそのCPUでは無効化されているかサポートされていない事を示す。
 (図は[1]より引用)

Variant

|       |                          |                 | variant |          |          |
|-------|--------------------------|-----------------|---------|----------|----------|
| Setup | CPU (Stepping)           | $\mu$ -arch.    | 1       | 2        | 3        |
| Lab   | Core i7-3630QM (E1)      | Ivy Bridge      | 1       | -        | <b>√</b> |
| Lab   | Core i7-6700K (R0)       | Skylake-S       | 1       | 1        | 1        |
| Lab   | Core i5-7300U (H0)       | Kaby Lake       | 1       | 1        | <b>/</b> |
| Lab   | Core i7-7700 (B0)        | Kaby Lake       | 1       | 1        | 1        |
| Lab   | Core i7-8650U (Y0)       | Kaby Lake-R     | 1       | 1        | 1        |
| Lab   | Core i7-8565U (W0)       | Whiskey Lake    | X       | -        | X        |
| Lab   | Core i7-8700K (U0)       | Coffee Lake-S   | 1       | 1        | 1        |
| Lab   | Core i9-9900K (P0)       | Coffee Lake-R   | X       | 1        | X        |
| Lab   | Xeon E5-1630 v4 (R0)     | Broadwell-EP    | 1       | 1        | 1        |
| Cloud | Xeon E5-2670 (C2)        | Sandy Bridge-EP | 1       | -        | 1        |
| Cloud | Xeon Gold 5120 (M0)      | Skylake-SP      | 1       | 1        | 1        |
| Cloud | Xeon Platinum 8175M (H0) | Skylake-SP      | 1       | -        | 1        |
| Cloud | Xeon Gold 5218 (B1)      | Cascade Lake-SP | X       | <b>√</b> | X        |

### パフォーマンス評価(2/2)



- バリアント1~3について、Core i7-8650Uのマシンにおいて 漏洩(伝送)速度を計測する実験を行っている
- v1の場合、v4のようにTSXで例外を抑制しながら実施した所、 平均伝送速度は5.30kB/s、真陽性率85.74%であった
- •v2の場合、平均伝送速度は39.66kB/s、真陽性率は99.99%だった
- v3は、TSX無しでは平均伝送速度0.08kB/sで52.7%の真陽性率、TSX有りの場合平均伝送速度7.73kB/sで真陽性率76.28%であった
  - 論文中では、TSX無しの方は「シグナルハンドラと併用」と書いてあるが、 これはTSX未使用なのでOSの例外ハンドラが発動する事を指していると 考えられる

### SGXシーリング鍵の抽出(1/10)



- 特権攻撃者が、Enclave内で実行されるsgx\_get\_key関数から、 この関数で生成された鍵をZombieLoadで漏洩させるシナリオに ついて考える
  - sgx\_get\_keyは、主にEnclave内で使用される各種の重要な鍵を導出する **EGETKEY**というCPU命令のラッパー関数である
- sgx\_get\_keyからの漏洩レートを測るベンチマーク用Enclaveからの 漏洩の他、自己署名QEからのPSKの漏洩についても行っている
  - PSKについては<u>こちら</u>を参照
- 特権攻撃が可能であるため、ForeshadowやLVIよろしく**SGX-Step** を利用しながら攻撃を進める
  - 1命令ずつ厳密に割り込みながらの攻撃が可能となる

## SGXシーリング鍵の抽出(2/10)



- 機密情報が格納されているような状態でCPU状態を固定し、それに対して攻撃を繰り返して逐次秘密情報を抽出したい場合がある
  - ZombieLoadやForeshadowのように、1バイトずつしか漏洩させられない 攻撃でCPUレジスタ状態から16バイトの鍵を抽出する、といった場合に必要
- ・攻撃を実施するコード部分に対応するページの実行権限を剥奪すると、同じコード(命令)部分でAEXとERESUMEが繰り返されるゼロステップ処理が発生する
- ゼロステップ処理中はEnclave実行が一切先に進まないため、延々と同一のCPUレジスタ状態がSSAにストア/SSAからロードされるのが繰り返され、結果CPU状態が固定される
  - AEX、ERESUME、SSAの説明は<u>こちら</u>を参照

# SGXシーリング鍵の抽出 (3/10)



・攻撃対象で使用する**キャッシュへのヒット**を**観測**した瞬間に ZombieLoadを開始する等により、**興味のない処理**から漏洩する **ノイズ**を**大幅に制限**できる

しかし、それでも攻撃の裏でOSやプロセス等が行う無関係な ロードからの値が漏洩してくる事もあり、これ自体を抑制しきる事 は不可能に近い

そこで、漏洩させたい鍵バイトだけを観測するだけでなく、隣り合う鍵バイトのそれぞれ一部分を内包するようなドミノバイトを 観測する手法を実施する

## SGXシーリング鍵の抽出 (4/10)



・以下の図のように、**隣接する鍵それぞれ**(白実線矩形部)を漏洩 させると共に、それらの**それぞれ一部**を含む**ドミノバイト**(薄緑 矩形部)の漏洩と抽出も行う(図は[1]より引用)



- 各鍵バイト位置で攻撃を繰り返し、最も漏洩の多いバイトが正しいと仮定するだけでなく、その候補にドミノバイトの内容が一致して初めて正解であると判断するようにする
  - ・隣接する2つの鍵バイトと、それにまたがるバイトであるドミノバイトとの整合性が取れていれば、そこに誤りは無いだろうというロジック

# SGXシーリング鍵の抽出(5/10)



- ZombieLoadではLFBエントリ内の位置をバイトレベルで指定して 漏洩させる事しか出来ないため、単なる鍵バイトの観測だけでは ドミノバイトを漏洩させる事は出来ない
  - 例えば、連続するLFBエントリのそれぞれ後ろ4ビットと前4ビットずつの 漏洩、というビットレベルの指定は出来ない

- そのため、過渡的実行によりAES鍵全体の内との部分の漏洩も可能であり、かつそれを過渡的に任意の処理に利用できるという前提が必要
  - この条件を満たせば、ZombieLoad発動後の過渡的ドメインのガジェットにおいて、AES鍵全体からドミノバイトを構築する事ができる

# SGXシーリング鍵の抽出(6/10)



- •nバイト目の鍵バイトとn+1バイト目の**隣接する鍵バイト**について、例えば**それぞれの4バイトずつ**からなる**ドミノバイト**がある時、これを(4,4)-**ドミノバイト**と書く事にする
- sgx\_get\_keyに対する攻撃では、(7,1)から(1,7)までの全てのパターンのドミノバイトを漏洩させる事で、さらにノイズが混じらないように確度を高めている
  - 言うまでもなく、(8,0)や(0,8)は単一鍵バイト内で完結しているので ドミノバイトではない
- 上記のような全パターンのドミノバイト一式をスライディング ウィンドウと呼んでいる

# SGXシーリング鍵の抽出(7/10)



- sgx\_get\_keyは、内部で独自のintel\_fast\_memcpyという関数を呼び出し、ベクトルレジスタであるxmm0を経由させる形で、
   128bit単位のmove命令でコピーしている事が判明した
  - ベクトルレジスタ: SIMD命令等でよく使われる、そのアーキテクチャの ビット数よりも大きいようなレジスタ。xmmレジスタは128bit長である
  - 余談だが、このベクトルレジスタからの過渡的漏洩が**Downfall**として 数年後の2023年に報告されている

よって、この独自のmemcpyを構成する機械語レベルでの最後の 命令でゼロステップ処理を行い、xmm0にSGX鍵を内包している ようなCPU状態を繰り返しSSAからロードする状況を作る

# SGXシーリング鍵の抽出(8/10)



- この状態でZombieLoadにより鍵を漏洩させる攻撃を、まずは 前述のベンチマーク用Enclaveに対しCore i7-7700のマシン上で 実行した
  - レポートキーを漏洩させ正しいかをチェックする事で成功確率を 検証している
- ・結果、100回中30回、つまり30%の確率で鍵候補の中に全鍵バイト が内包されている状態が確認された
  - 実際に完全な鍵を回復できたのはその内3%の試行だけであり、割合としてはかなり低いと言わざるを得ない
- 残り70%では全鍵バイトは観測できず、内31%では平均して10バイト含まれており、残り39%では一切内包されていなかった

### SGXシーリング鍵の抽出(9/10)



- 次に、実験用QEからPSKを漏洩させる事を試みている
  - QEは本来ビルド・署名済みのイメージが直接インストールされてそれを 用いるが、実験ではLinux-SGXのSGXPSWで公開されているQEのコードから ビルドしデバッグ用の鍵で署名した、実験用のQEに対して攻撃している

- 結果として、実際にPSKを漏洩させ、実験用にPSKでシーリングし ストアしたAttestationキーをアンシーリングし取得する事に 成功した
  - ・恐らくこのAttestationキーは正規のプロビジョニング手続きを経て デプロイされたものではなく、実験用にダミー的に用意した値

# SGXシーリング鍵の抽出(10/10)



 PSKはMRSIGNERポリシ、つまりEnclave署名鍵に依存する シーリング鍵であるため、この実験用QEから漏洩したPSKでは、 Intel公式のPvE(QEと署名鍵が同じ)で正規のPSKにより シーリングされたAttestationキーはアンシーリング出来ない

・論文中ではIntelが署名した公式QEからの漏洩は行っていないが、 もしできてしまうと漏洩したPSKで正規のAttestationキーが暴かれ、 RAのセキュリティ保証が崩壊してしまう

### VM間秘密チャネル(1/7)



- 秘密チャネル:本来データ転送のために用意されているものではない要素を用いて構築された、秘密裏にデータ転送を行う通信路
  - 英名: Covert Channel
  - 過渡的実行攻撃でのキャッシュサイドチャネル攻撃におけるキャッシュも、 まさに過渡的領域から命令リタイア後への秘密チャネルである

- ・攻撃対象VMの秘密情報を漏洩させて攻撃者のVMに転送する 秘密チャネルを、ZombieLoadによって実現し攻撃を実行する
  - プロセス間、カーネル、SGX、ハイパーバイザといった他のシナリオでも可能ではあるが、ここではVM間攻撃を考える
- この二者のVMはシブリングスレッド上にそれぞれ存在するとする

### VM間秘密チャネル(2/7)



- ・送信側(攻撃対象VM)では、漏洩させたい値を複数のメモリアドレスに展開し、それぞれから繰り返しロードする
  - これにより、複数のLFBエントリ(CPUモデルによってエントリ数は 10か12個)に漏洩させたい値が持ち込まれる確率が上がり、ZombieLoad により漏洩する確率も上がる
- ・受信側(攻撃側VM)ではZombieLoadを実行し、送信側がロードした値を漏洩させる。漏洩させた値は監視用配列のキャッシュに
   痕跡を残し、FLUSH+RELOADで過渡的実行終了後に観測する
  - Foreshadow等と同様、1バイトずつの漏洩攻撃になる
  - これもForeshadow同様、キャッシュラインプリフェッチャの誤爆の影響を 阻止するため、監視用配列の各スロットはページサイズ間隔で配置する
  - スロット数は後述の理由から256<sup>2</sup> × 4096

#### (復習) FLUSH+RELOAD攻撃



- FLUSH+RELOAD: キャッシュラインをフラッシュ(クリア)し、 攻撃対象に何らかの活動させた後、再度アクセスする攻撃
  - 再アクセス時にアクセス時間が短ければ、そのキャッシュ値を 攻撃対象が使用したという事がわかる(データ自体の推測)



#### VM間秘密チャネル(3/7)



 例に漏れずZombieLoadは無関係な処理に由来するノイズも 漏洩させるため、以下の図に示すような32bitのパケットを漏洩・ 転送させる事でそのようなノイズの排除を試みる



- 監視用配列は1バイトずつの漏洩のみを行えるため、パケット全体を命令リタイア後に観測する事は出来ないが、過渡的領域でエラー検出を行い、有効なバイトデータ(0x00yy)とシーケンス番号(0xFFzz)のみをキャッシュに残す事が出来る
  - その後、FLUSH+RELOADで観測する

### VM間秘密チャネル(4/7)



・送信側は、前図の右から1バイト目には漏洩させるデータを、2バイト目には漏洩させるデータをビット反転させたものを格納する

- ・受信側はこのパケットをZombieLoadで漏洩させ、2バイト目に対し 1バイト目をXNOR演算してそのまま2バイト目を上書きする
  - 元データとビット反転したデータのXNORであるため、誤りがなければ 2バイト目は必ず0b00000000となる

#### VM間秘密チャネル(5/7)



この2バイト目と1バイト目からなる16bitの値をインデックスとして 以下のように監視用配列にアクセスする

uint8\_t value = oracle[leaked\_data \* 0x1000];

- もし誤りが無い場合、前述の通り16bitの内上位8bitがオールゼロに なるため、上記の過渡的アクセスは必ず監視用配列の256スロットの いずれかにアクセスする
- 一方、誤りがあると上位8bitのいくつかのビットが1になるため、 leaked\_data \* 0x1000は言わば257スロット目以降の境界外への アクセスを行う
  - ・境界外は後続のFLUSH+RELOADでの探知を行わないため、結果的に 誤りが発生した場合は完全に無視される形になる

### VM間秘密チャネル(6/7)



- 後は、受信側でFLUSH+RELOADにより監視用配列のキャッシュから目当ての秘密バイトを観測するだけである
- パケットの前図右から3バイト目にはバイトのシーケンス番号を 格納しているため、これを参照する事で漏洩させたデータを順番に 並べ替える事も出来る
  - この順番通りの並べかえは、AES鍵のように順序が重要なデータを漏洩 させる場合に有用である
- シーケンス番号はプレフィックスの0xFFと併せて0xFFyy、 秘密バイトは誤りが無ければ0x00zzの形で監視用配列の インデックスとなるため、観測時相互に識別可能である
  - 誤りがある場合は0x00nnに対するFLUSH+RELOADでアクセス時間が 全要素均一となる事で検知でき、その場合はシーケンス番号自体不要である

### VM間秘密チャネル(7/7)



- 論文では、Core i7-8650Uを搭載するローカルマシン上のQEMU KVMで動作する2つのVM間での転送と、あるパブリッククラウドの 同一ベアメタル上のVM間での漏洩と転送を行う実験を実施している
  - どのパブリッククラウドであるかは当該クラウド事業者により口封じされているらしい
- 前者のシナリオでは、TSXによる例外抑制を用いながらの ZombieLoad v1を用いて最大26.8kbpsの伝送レートを 記録している
- クラウドのシナリオでは、そのクラウドでTSXを使用できなかった ため、TSX無しのZombieLoad v1で最大1.99kbpsの伝送レートを 達成している

# Downfall

#### コンテキストスイッチ



- コンテキストスイッチ: CPUが処理する対象を変更する動作
  - プロセス間の切り替え、SGXのEnclave内外での切り替え、ユーザモードからOSのカーネルモードへの切り替え

- コンテキストスイッチが発生した場合、仮想アドレス空間と CPUレジスタの状態(コンテキスト)の切り替えが発生する
  - よって、例えば切替後のプロセスが切替前のプロセスのメモリやレジスタに アクセスする事はできない

# SIMDとベクトルレジスタ(1/3)



- **SIMD**: Single Instruction Multiple Dataの略。**同じ操作**を **異なるデータで並列に実行**するような処理
  - ・例:8個のデータを、単一のSIMD命令で並列で一気にビット反転する
- SIMDには、現在主流であるアーキテクチャのビット数である64bit よりも大きい、専用に用意されているベクトルレジスタ(ワイド レジスタ)を用いる

Intel SSE対応のCPUであれば128bit、AVXやAVX2対応であれば256bit、AVX512対応であれば512bitのベクトルレジスタが用意されている

### SIMDとベクトルレジスタ(2/3)



64ビットレジスタにおけるraxのように、ベクトルレジスタにも レジスタ名が付与されている

- 128bitレジスタは $xmm_n$ 、256bitレジスタは $ymm_n$ 、512bitレジスタは $ymm_n$ という命名規則になっている
  - 各末尾のnはレジスタのインデックス番号(例:xmm0)

## SIMDとベクトルレジスタ(3/3)



- 同じインデックス番号の異なるサイズのベクトルレジスタがある場合、より大きいレジスタはより小さいレジスタを内包する構成となっている
  - 例:zmm0はymm0とxmm0を含み、ymm0はxmm0を含む
  - 通常のレジスタにおけるraxとeaxのような関係と同様



# Gather命令(1/4)



- 主にメモリの各所に分散して存在している非連続なデータを効率的に 収集しロードする命令
  - %rsi:ベースアドレス
  - %xmm2: 収集してロードするデータの位置を指定する、ベースアドレスに対するインデックスを格納するインデックス配列
  - %xmm1:マスクレジスタ。ここで0であるようなビット位置のデータは、インデックス配列に格納されていても収集を行わず無視する
    - (例:マスクレジスタの2bit目が0なら、インデックス配列の2要素目に対応するデータの収集は行わない)
  - %xmm3: 収集結果を格納するベクトルレジスタ

vpgatherdd = %xmm1, 0(%rsi, %xmm2, 2), %xmm3

# Gather命令(2/4)



前ページの例では、32bitの値(dword) 4つを収集して128bitのベクトルレジスタであるxmm3レジスタに格納する

- ・収集するデータの位置は、(%rsi + %xmm2[i] \* 2)という形で 決定される
  - 収集対象が4個であるため、 $0 \le i < 4$ である
- また、インデックス配列の内特定要素に対応する場所のデータは 収集不要である等の場合は、対応するマスク配列の要素を0にする 事で収集対象から除外する事ができる

# Gather命令(3/4)



このGather命令でメモリの各所に散らばったデータを効率的に 収集してベクトルレジスタにロードした上で、他のSIMD命令を 実行すると効率的にSIMD処理を行う事ができる

- ・AVX-512の場合、マスク配列専用のマスクレジスタknが用意されており、以下のようにGather命令を記述する事ができる
  - rsiがベースアドレス、zmm2がインデックス配列、k1がマスクレジスタ、 zmm3が格納先ワイドレジスタ

vpgatherdd 0(%rsi, %zmm2, 1), %zmm3{%k1} // AVX-512

### Gather命令(4/4)



• Gather命令による動作の様子を図示すると以下のようになる (図は[8]より引用)



# マイクロアーキテクチャ(µ-Arch)



- μ-Arch:命令セットアーキテクチャよりもローレベルな、CPUの内部構造やデータフローを定義する設計レベルの事
  - 有名所としては**キャッシュメモリ**もµ-Archに含まれる
  - その他、**直近の分岐履歴**等を記録するLBR(Last Branch Record)や、 アウトオブオーダー実行等で未処理のストア命令を記録しておく **ストアバッファ**等が存在する
- μ-Archに対する攻撃は、過渡的実行攻撃(Transient Execution Attacks)のアウトブレイクが発生した2018年以降急激に 増えている

## Gatherのµ-Archによる最適化



 CPUは、以下のようなマイクロアーキテクチャによる最適化により Gather命令の実行を高速化している:

- **▶0であるマスクビット**に対応するメモリ位置からは、そもそもロード処理自体 行わずに**処理から排除**する。
- ▶同一キャッシュラインから複数の値を収集する場合、そのキャッシュラインを 保持しておく。
- ▶複数の読み出しを**並列かつ投機的に実行**し、少なくとも1つの読み出しに 失敗したら**結果を破棄**する。
- ➤Gather処理中に割り込みが入った場合に途中から再開できるよう、 既に実行された**部分的な読み取り結果を保持**しておく。

### Gather命令の最適化から見えるデジャヴ



- 複数回読み出し時のキャッシュライン保持や、割り込み発生時の 再開のための部分結果保持には、CPUパッケージ内の何らかの バッファを使用しているのでは?
  - Foreshadow (L1D) 、ZombieLoad (LFB) 、Fallout (SB) 、 LVI (L1D、LFB、SB、LP、FPU) のような漏洩が発生するのでは?

- 投機的に実行して駄目ならアーキテクチャ状態(CPUやメモリの実際の状態)への反映時(命令リタイア時)に破棄、という挙動は、過渡的領域において何かしらの脆弱性を抱えているのでは?
  - 過渡的実行中にキャッシュ等に秘密情報に依存する値の痕跡を残す攻撃は もはや恒例である

## Downfall (1/2)



 お察しの通り、Gather命令に伴いベクトルレジスタ内の古い値が 過渡的に漏洩する「Gather Data Sampling (GDS)」が 発見された

さらに、ForeshadowやMDSからのLVIへの接続の類推から、
 GDSによる漏洩値を後続の過渡的命令への注入に転用する「Gather Value Injection (GVI)」の実現にも成功している

これらのGDSやGVIを悪用した攻撃をDownfallと呼んでいる[8]



## Downfall (2/2)



• Gatherに伴い漏洩するデータの漏洩元は、論文では 「一時バッファ」「内部バッファ」「SIMDレジスタバッファ」と 表現しており、いまいち**実体が釈然としない** 

• Intel公式による解説によると、前述の通りベクトルレジスタが 漏洩元であると言及されている

- ・論文執筆中には実体が知れなかったが、エンバーゴ(情報開示禁止期間)中にIntelが突き止めて判明した可能性などが憶測できる
  - ちなみに、Downfallのメインページではベクトルレジスタであると 明示的に言及している

### GDSのPoC実装(1/7)



・以下のコードは、GDSを実行するためのPoCコードである

```
lea addresses_normal, %rdi
clflush (%rdi)
mov (%rdi), %rax
lea addresses_uncacheable, %rsi
mov $0b1, %rdi
kmovg %rdi, %k1
vpxord %zmm1, %zmm1, %zmm1
vpgatherdd ∅(%rsi, %zmm1, 1), %zmm5{%k1}
movq%xmm5,%rax
encode_eax
scan_flush_reload
```

### GDSのPoC実装(2/7)



• GDSの概要を示した図は以下の通り:



### GDSのPoC実装(3/7)



### ■ステップ(i)

**キャッシュクリア**を行う事で**キャッシュミスを誘発**する。 キャッシュミスはCPU的には遅延以外の何物でもないため、 **投機的実行(過渡的実行)のウィンドウ(実行時間)を増幅**させ、 過渡的に転送された値をキャッシュに残す**時間的猶予が増える**。

### ■ステップ(ii)

まず、このステップの最初の行で対象メモリアドレスを**キャッシュ 不可**(Uncacheable) としている。かつ、ステップ(i)で**キャッシュを クリア**しているため、**Gather命令**において**キャッシュミス**が発生する。 これにより、動作は中断されないが、裏で**過渡的実行が発動**する (キャッシュミスは遅いため、CPU的には投機的に解決したい)

### GDSのPoC実装(4/7)



### ■ステップ(iii)

Gatherの過渡的実行により、(恐らくzmm5)ベクトルレジスタ内に 残留している古いdword(4バイト値)が後続の命令に過渡的に転送 される(ここでは単一dwordのみ漏洩するものとする)。

過渡的に漏洩したdwordの各バイトをインデックスとして、4×256の 監視用配列に過渡的にアクセスし痕跡を残す。

例:dword値が0x8c34c592である場合、監視用配列をA[4][256]とすると

A[3][0x8c], A[2][0x34], A[1][0xc5], A[0][0x92]

のように過渡的にアクセスする。

### GDSのPoC実装(5/7)



### ■ステップ(iv)

過渡的実行の終了、つまり命令リタイア後、FLUSH+RELOAD攻撃により過渡的に漏洩した値を監視用配列経由で観測する。

前述の例の場合、ステップ(i)で**キャッシュクリア済み**(FLUSH)であり、かつA[3][0x8c], A[2][0x34], A[1][0xc5], A[0][0x92]にのみ**過渡的にアクセス**し**キャッシュが残っている**ため、これらの要素への**アクセス時間**だけ**他に比べて高速**である。

よって、アクセスが高速であったような要素の**インデックス経由**で、 **漏洩したdword値を復元**する事ができる(**RELOAD**)。

## GDSのPoC実装(6/7)



もしベクトルレジスタ内に残留していた古いdwordが、本来攻撃者のアクセスできない秘密情報であった場合、この時点で秘密情報の漏洩が発生した事になる

ForeshadowやZombieLoad同様、キャッシュラインプリフェッチャの誤動作により監視用配列のキャッシュが汚染される事を防ぐため、監視用配列の各バイト監視用の要素(スロット)は最小で128B、最大で4096B(1物理ページ分)間隔を空ける必要がある

### GDSのPoC実装(7/7)



 このPoC実装のGDSをTiger Lake CPU上で実行した所、並行する ハイパースレッド(シブリングスレッド)から1秒間に809個の dword値を漏洩させる事ができた

また、前述のステップ(i)~(iii)を繰り返す事で、dwordが完全な 形でキャッシュに残る確度を高める事ができる

実際に(i)~(iii)を32回実行してから(iv)を実行した所、1秒間に903個のdwordを漏洩させられた

### GDSのトリガー方法(1/4)



- GDSは、前述の通りキャッシュ不可メモリへのアクセスや、あるいは Write Combiningメモリへのアクセスでも発生する
  - Write Combining: 書き込みを後でまとめて行うようなメモリモード。
     このメモリモードである場合もキャッシュが迂回される

- また、Gatherに伴うあらゆるフォールトによってもGDSが 誘発される事が確認できている
  - カーネルやメモリ保護キーへの無効なアクセスに伴うパーミッションフォールト
  - マッピングされていないメモリアクセスによるページフォールト
  - ・<u>非正規アドレス</u>へのアクセスに伴う**アドレス生成フォールト**

### GDSのトリガー方法(2/4)



- また、PTEのAccessedビットが0であるページにアクセスした際にも、GDSによってかなり転送レートの低めな漏洩が確認された
  - ZombieLoadからの類推からすると、このようなアクセスに伴うマイクロコードアシストが原因そうだが、トリガーとして確定はできていない
- <u>transient.fail</u>にて整理されている**過渡的実行攻撃の分類**で言うと、 Meltdown-US、Meltdown-MPK、Meltdown-NC、Meltdown-P、 Meltdown-UC、Meltdown-AをGDSは悪用している
  - 順にMeltdown本家(カーネルアクセス違反)、メモリ保護キー違反、 非正規アドレス違反、ページフォールト、キャッシュ不可、アラインメント されていないメモリオペランドを悪用するものである
- Downfall発見時点でIntelによりTSXが無効化されているため、 Meltdown-TAAは当てはまらない

### GDSのトリガー方法(3/4)



 以下のコード例のように、フォールトやアシストを誘発するような 異常な(Exotic)アドレスに一切アクセスせずに、過渡的実行を 誘発してGDSを発動させる方法も存在する

```
lea addresses_normal_helper, %rdi
.set i, 0
.rept 8
clflush 64*i(%rdi)
mov 64*i(%rdi), %rax
.set i, i+1
.endr
xchg %rax, ∅(%rdi)
lea addresses_normal, %rsi
```

### GDSのトリガー方法(4/4)



- 前ページの例では、キャッシュクリアによりキャッシュミスを 誘発させた上で、アトミックなLMS (Load-Modify-Store) 命令 であるxchg命令を実行している
- アトミックなLMS命令では、対象を排他的にロックした上で ロード・変更・ストアの一連の処理を行うものであるため、CPUから すると非常に時間的コストの高価な処理である

その上キャッシュミスによりさらなる遅延を仕組まれているため、 これらの遅延を軽減しようとCPUが画策して過渡的実行が発動し、 結果としてGDSが発生してしまう

### マスクビットが0である場合の挙動



GDSを発生させるGatherにおいて、あるインデックスに対応するマスクビットが0である場合、そのインデックスに対応するベクトルレジスタからは、GDSにより漏洩させる事はできなかった

- フォールトによりGDSが誘発される場合でも、そのような異常 (Exotic) アドレスにアクセスしない場合でも同様
- これは、前述のマイクロアーキテクチャ最適化により、マスクビットが0であるようなデータはそもそも読み出さないようにされるからであると考えられる
  - GDSを引き起こすGather側のマスクビットの話である点に注意。攻撃対象とするベクトル命令におけるマスクビットについてはまた別である

### GDSの影響を受ける命令(1/5)



ベクトルレジスタに読み出したり、あるいは一時的なバッファとして ベクトルレジスタを使用する命令で使用される値が、原理的に GDSによって漏洩させられてしまう事になる

- 手法の詳細は省略するが、自動的あるいは手動でテストを行う事により、実際にGDSにより使用した値が漏洩してしまうような命令を洗い出して一覧化している
  - ・攻撃者の実行するGatherによって使用した値が漏洩するような、攻撃対象となる命令の一覧である
  - 別の攻撃対象命令から**漏洩させるために使用**できる**命令の一覧でない**点に 注意

### GDSの影響を受ける命令(2/5)



#### • GDSによる影響を受ける命令は以下の通り:

```
Instruction buckets:
                       (v)(vp)(p)blend*{19}
                                                (v)(vp)(p)cmp*{217}
                       (v)insert*{12}
(v)(vu)(u)comi*{8}
                                                (v)(vp)(p)align*{4}
(v)(vp)maskmov*{4}
                       (v)(vp)(p)mov*{47}
                                                (v)perm*{22}
(v)(vp)compress*{4}
                       (v)(vp)gather*{8}
                                                (v)(vp)max*{12}
(v)scale*\{4\}
                       (v)(vp)(p)shuf*{17}
                                                (v)rsqrt*\{7\}
(v)sqrt*\{6\}
                       (v)fixup*\{4\}
                                                (v)fpclass*{10}
(v)getmant*\{4\}
                       (v)(vp)xor*{5}
                                                (v)(vp)or*{5}
(vp)rol*{4}
                       (v)pack*\{4\}
                                                (vp)(p)srl*{10}
(v)(vp)andn*\{5\}
                       (v)(vp)and*\{5\}
                                                (v)getexp*\{4\}
(vp)lzcnt*{2}
                       (v)lddqu{1}
                                                (vp)dpwssd*{2}
(v)dbpsadbw{1}
                       (vp)sadbw\{1\}
                                                (v)rndscale*{4}
sha*{6}
                       (vp)madd*\{4\}
                                                (vp)ror*{4}
(v)cvt*{74}
                                                (v)gf2p8*{6}
                       (v)dpp*{4}
(v)(vp)(p)hadd*{10}
                       (vp)(p)abs*{7}
                                                (vp)(p)clmul*{7}
                                                (v)popcnt*{4}
(v)phmin*{2}
                       (v)(vp)min*{12}
(v)div*{4}
                       (v)(vp)broadcast*{17}
                                               (v)fm*{36}
(v)(vp)(p)test*{12}
                       (vp)multishift{1}
                                                (v)(vp)(p)mul*{13}
(v)rcp*{7}
                       (v)round*\{8\}
                                                (v)reduce*\{4\}
(v)range*\{4\}
                       (v)(vp)expand*\{6\}
                                                (vp)ternlog*{2}
(v)addsub*{2}
                       (v)(vp)add*{12}
                                                (v)(vp)sub*{12}
(vp)conflict*{2}
                       (vp)(p)sll*{9}
                                                (vp)(p)sra*{8}
(vp)dpbus*{2}
                       rep(ne) mov*{8}
                                                xsave/xrstor*{2}
fxsave/fxrstor*{3}
                       (v)(vp)(p)hsub*{10}
                                                (vp)sign*\{3\}
                       (v)fnm*{24}
                                                (vp)(p)ins*{6}
(v)(vp)unpck*{12}
(vp)shl*{6}
                       (vp)2intersect*{2}
                                                (v)mpsad*{2}
                                                (v)aes*{12}
(vp)shr*{6}
                       (vp)avg*{2}
```

※{n}は影響を受けるそのカテゴリの命令の合計数、(v)(vp)(p)はベクトル命令の接頭辞、\*部分は取り扱うデータの型によるバリエーション(接尾辞)

### GDSの影響を受ける命令(3/5)



#### ■SIMD読み出し

メモリから**ワイドデータ**(128/256/512bitのデータ)を**読み出す 全てのSIMD演算**がGDSの影響を受ける。

例:読み出しのみを行うvmov\*命令、読み出しとXOR演算を実行するvpxor\*命令

#### ■SIMD書き込み

compress命令のみが影響を受ける。

#### ■暗号学的拡張命令

AES-NIやSHA-NIのような暗号学的拡張命令が、値のロード等で内部的にベクトルレジスタを使用するため、これらの拡張機能を用いたAESやHMAC-SHAから平文データや秘密鍵が漏洩する。

### GDSの影響を受ける命令(4/5)



#### ■高速メモリコピー

memcpyやmemmoveにおける高速なメモリコピーのために 用いられている、rep命令とmovs\*命令の組み合わせが、内部で ベクトルレジスタを用いているために影響を受ける。 (rep命令はmovs系命令をループさせる命令)

#### ■レジスタコンテキストのリストア

**コンテキストスイッチ**に伴う**レジスタコンテキスト**の**ストアやリストア**時にもベクトルレジスタが使われるため、**GDSの影響を受ける**。

具体的には、xsaveやxrstorで扱われる標準のレジスタと、fxsaveやfxrstorで扱われるワイドレジスタ双方が対象となり、後者はSGXのAEXやERESUMEで使用されている。

### GDSの影響を受ける命令(5/5)



#### ■ダイレクトストア

ある**64バイト**の値を、コピー元アドレスからコピー先アドレスに **直接コピー**する**ダイレクトストア操作**も**内部でベクトルレジスタを 使用**しており、GDSの影響を受ける。

ちなみに、ダイレクトストアはキャッシュを迂回して行われる[11]。

#### ■誤検出のケース

movのような標準的なメモリ読み出しからの漏洩も確認されたが、 これは裏で**定期的にOSのタイマ割り込み**等で**実行**される**xrstor命令に よるもの**であると判明した。

これは、ForeshadowやZombieLoadのように**ゼロステップ処理**で SGXからxrstorを狙って漏洩させられるというヒントとなっている。

### エントリサイズからの考察



・前述の通り、論文執筆時点ではSIMDレジスタバッファが何物なのか 判然としていなかった可能性が推測される

・論文中では、AVX-512対応であれば512ビット(64バイト)のzmmレジスタへのロードデータの任意の部分を漏洩でき、 非対応であれば最大32バイトしか漏洩できない事を確認している

- ・この事からも、ベクトルレジスタが漏洩元である事を当時であっても ある程度推測できる
  - ただし、仮に別の不明な内部バッファが存在し、AVX-512への対応時のみ 大きくなっている可能性も、この推測だけでは拭いきれない

### 漏洩元の推測(1/4)



ここで、ForeshadowやMDSで漏洩元となっていたL1DキャッシュやマイクロアーキテクチャバッファがGDSの漏洩元ではない事を確定させておく必要がある

- そこで、VERW命令によりマイクロアーキテクチャバッファを フラッシュし、MSR(モデル固有レジスタ)経由でL1Dキャッシュ をフラッシュしてみる
  - VERW命令は本来全く関係ないあまり使われない命令であったが、MDSの発見以降µ-Archバッファをフラッシュする副次的機能を付与されている

### 漏洩元の推測(2/4)



- 結果、フラッシュの有無に関わらず漏洩したため、GDSは既存の 攻撃におけるµ-Archバッファとは無関係であると結論付ける事が できる
  - フラッシュ後の方が漏洩レートが高くなっているものについては、副次的な要因で過渡的実行ウィンドウが拡大されたためであると推測される



図は[8]より引用

### 漏洩元の推測(3/4)



 既存のMDSやMMIO Stale Data脆弱性を抱えていないTiger Lake CPUでVERW命令を行うと、µ-Archバッファをフラッシュする 必要がないため、以下のようにVERWのサイクル数が小さくなる

| CDII Consession | G           | DS                       |     | VERW   |             |       |        |
|-----------------|-------------|--------------------------|-----|--------|-------------|-------|--------|
| CPU Generation  | SMT         | Switch                   | SMT | Switch | >TAA        | >MMIO | Cycles |
| Tiger Lake      | θ           | θ                        | θ   | θ      | θ           | θ     | 80     |
| Ice Lake        | $\vartheta$ | $\boldsymbol{\vartheta}$ | θ   | θ      | θ           | Δ     | 592    |
| Cascade Lake    | $\vartheta$ | $\boldsymbol{\vartheta}$ | θ   | θ      | $\varkappa$ | Δ     | 324    |
| Kaby Lake       | $\vartheta$ | θ                        | θ   | Δ      | 26          | Δ     | 696    |

 $\vartheta$  Vulnerable  $\theta$  Not affected  $\varkappa$  TSX disabled  $\triangle$  Buffer flush

### 漏洩元の推測(4/4)



- その状態でも、SIMDメモリアクセスのみがGDSの影響を受けている 事から、既存の攻撃で悪用されたµ-Archバッファとは別の、 SIMD演算に関連するバッファから漏洩していると推測される
  - 論文中では「SIMDレジスタバッファ」という(不明な)バッファであると 言及している

- 実際、前述の通りエンバーゴ期間を経た後に、Intel及びDownfallの トップページ[9]でそれがベクトルレジスタであった事が開示されて いる
  - この推測の仕方からしても、論文執筆時点ではその実体が不明瞭であった事が窺える

# Downfall攻撃の実践例

### Downfall攻撃の実践例



- ここまでで説明したGDSを応用した、以下の4つの攻撃について順に説明を進める
  - プロセス間秘密チャネル
  - 任意のデータの盗聴
  - Gather Value Injection
  - SGXへの攻撃

# プロセス間秘密チャネル

## プロセス間秘密チャネル(1/9)



- 秘密チャネル:本来データ転送のために用意されているものでは ない要素を用いて構築された、秘密裏にデータ転送を行う通信路
  - 英名: Covert Channel
  - 過渡的実行攻撃でのキャッシュサイドチャネル攻撃におけるキャッシュも、 まさに過渡的領域から命令リタイア後への秘密チャネルである

・攻撃対象プロセスで使用された値を攻撃側プロセスからGDSで 盗聴する、プロセス間秘密チャネル攻撃について考える

## プロセス間秘密チャネル (2/9)



- 過渡的実行攻撃においては、秘密チャネルとして主に前述の通り256スロットの監視用配列のキャッシュを利用する事が多い
  - あるバイトについて、それをインデックスとして監視用配列に過渡的に アクセスし、FLUSH+RELOADで後から検知する

 MeltdownやForeshadowでは256スロットの監視用配列を1つ 用意して1バイトずつ、ZombieLoadでは256スロット監視用配列を 3つ用意して3バイトずつ漏洩値の観測を行っている

一方、GDSでは32個の256スロット監視用配列を用意し、 64バイトまたは32バイトのベクトルレジスタから最大32バイトを 同時に漏洩させるマルチワードデータサンプリングを考える

## プロセス間秘密チャネル (3/9)



- 理論的には最大32バイト同時に漏洩させる事ができそうだが、 実際にはどの程度の同時漏洩が可能であるのかを実験的に確認する
- ・攻撃対象の論理スレッド上にて、**64バイトの連続データ**を vmov命令でSIMD読み出しし、それを並行するシブリングスレッド からGDSで**可能な限り同時に複数バイトを漏洩**させる
  - 具体的には、連続データはA..Za..z0..9#!の64バイトの連続データである。 ただし、ピリオド2つは表記上の省略を表している
- ベクトルレジスタ内の特定の要素をスカラー値として抽出する vextract\*命令やpextr\*命令、そしてベクトル内の要素の並び替えや 特定要素の取得を行うvperm\*命令(Permute命令)を駆使して マルチワード漏洩を試みる

## プロセス間秘密チャネル (4/9)



- Tiger Lake CPU上で前ページで述べたマルチワード漏洩手法を 試した所、以下の図に示す通り、最大同時漏洩数は22バイトであり、 殆どの場合16~21バイトの同時漏洩数であった
  - 32バイトの同時漏洩ができない原因としては、過渡的実行ウィンドウの 限界やノイズの混入などが考えられるが、論文中では言及されていない



図は[8]より引用

## プロセス間秘密チャネル (5/9)



• 同時漏洩数の次は、漏洩するデータの**データパターン**について 実験的に確認する

- アルファベット列(A~T)とXの羅列、そしてYの羅列の3つの 羅列を用意し、同一または他の羅列と同時にvmov命令でロードし、 そこからGDSを用いて抽出する事を試みる
  - dwordを収集するGatherとqwordを収集するGatherの両方について 実験を行う

### プロセス間秘密チャネル(6/9)



- 実験の結果、以下のようなデータ漏洩パターンが観測された
  - 非常に分かりにくいが、3行で1つの塊として見た際に、一番上の塊がアルファベット列、2番目がXの羅列、3番目がYの羅列のロードについての結果を示している
  - その上で、それぞれ1行目はアルファベット列との同時ロード、2行目はXの 羅列との同時ロード、3行目はYの羅列との同時ロードを示している



#### 

図は[8]より引用

## プロセス間秘密チャネル (7/9)



- ・このように、同時に発生するベクトル命令によって読み取り結果に 混合が発生するため、攻撃の裏で行われている処理による意図せぬ ノイズが入る事もままある
  - よって、単一のdwordあるいはqwordよりも大きい連続した正しいデータを 漏洩させられる保証はない
- 論文では、ベクトルレジスタ内の各要素同士の並べかえを行う Permute命令を用いる事で、目当てのdwordやqwordのみを 抽出できるとしている
  - が、前ページで示したデータ漏洩パターンが決定的なものであるのか書かれていないため、どこまでコントロールできるのかは不明

## プロセス間秘密チャネル (8/9)



・前ページまででその性質を実験的に確かめた、GDSによる マルチワードデータサンプリングを用いて、実際にプロセス間で 秘密チャネルを構築し漏洩速度のベンチマークを取る

vmov命令、rep mov(高速メモリコピー)、fxrstor命令、 aes命令の4つからそれぞれ使用したデータをGDSを用いて 漏洩させる

さらに、過渡的実行を誘発させる方法として、フォールト使用、 キャッシュ不可能メモリ使用、いずれも不使用(前述のアトミックな LMSを用いた方法など)の3パターンについて測定する

### プロセス間秘密チャネル (9/9)



・ベンチマークの結果は以下の図の通り(図は[8]より引用):

| CPU Generation | vmov    |         |         | rep mov |         |         | fxrstor |         |         | aes    |         |        |
|----------------|---------|---------|---------|---------|---------|---------|---------|---------|---------|--------|---------|--------|
|                | •       | U       | ×       | •       | U       | ×       | •       | U       | ×       | •      | U       | ×      |
| Tiger Lake     | 4128.78 | 5584.57 | 5870.3  | 3318.15 | 1438.53 | 1414.55 | 92.35   | 1465.13 | 178.68  | 688.27 | 1763.57 | 1101.7 |
| Ice Lake       | 0.73    | 2.48    | 6.25    | 11.67   | 58.13   | 30.97   | 0.0     | 0.57    | 3.05    | 0.1    | 6.68    | 7.42   |
| Cascade Lake   | 133.27  | 72.47   | 2424.83 | 19.23   | 14.23   | 2569.78 | 76.2    | 3.98    | 1209.13 | 8.0    | 75.77   | 1395.7 |
| Kaby Lake      | 0.03    | 26.45   | 11.12   | 0.2     | 3.87    | 70.2    | 0.03    | 0.1     | 0.07    | 0.0    | 0.13    | 2.03   |

• Cacheable no fault  $\cup$  uncacheable  $\times$  Page fault

 Tiger Lake CPUにおいてページフォールトを使用したGDSにより vmov命令から漏洩させるシナリオが5870.3byte/sと最高効率 であった事が分かる

# 任意のデータの盗聴

#### 任意のデータの盗聴(1/2)



- 次に、任意の静止データ(Data-at-Rest)をGDSによって盗聴する 攻撃を考える
  - Data-at-Rest: ここでは、攻撃対象アドレスにマッピングされているが使用されていないデータを指す。本来は「保存データ」と言い、ある処理において使用されていない補助記憶装置上のデータを指す
- この攻撃では、CPUが静止データをベクトルレジスタにプリフェッチ する事により、ソフトウェアが読み込んでいないにも関わらず GDSが漏洩させられる状況が2通りある事を悪用する
  - ・境界外(OOB; Out-Of-Bounds)プリフェッチ
  - ・NOPプリフェッチ

## 任意のデータの盗聴(2/2)



- 境界外プリフェッチ:ソフトウェアは本来nバイトのみ読み取りを 行うはずなのにも関わらず、CPUが最大x個のキャッシュライン (64×xバイト)をプリフェッチし漏洩させてしまう挙動
- NOPプリフェッチ:ソフトウェアは本来0バイトを読み込む (つまり「何もしない命令」であるnop命令を実行する)にも 関わらず、CPUが最大x個のキャッシュラインをプリフェッチし 漏洩させてしまう挙動
- これらは、マスク付きmove命令(maskmov)や繰り返し move命令(rep mov)からのGDSによるデータの漏洩に 悪用する事ができる

#### マスク付きmove命令への攻撃



- マスク付きmove命令:対応するマスクビットが1であるような要素のみmove(コピー)を行うようなSIMD命令
  - Gather命令におけるマスクレジスタのそれと全く同様のイメージ
  - マスクビットが全て0である場合は、本来はNOP命令となるはず
- この時、単一のdwordを読み取ったり、そもそもマスクビットが全て0である場合でも、攻撃対象アドレスから64バイトをCPUがプリフェッチしてしまう
  - GDSの攻撃側のGather命令のマスクレジスタとは全く別の議論である点に 注意。前述の通り、Gather側はマスクビットが0だと収集が行われない
- ・当然、本来アーキテクチャ的にアクセスされるはずがない要素 (静止データ) もプリフェッチされてしまうため、このような 静止データがGDSにより漏洩させられてしまう

#### 繰り返しmove命令への攻撃(1/2)



- コピーする連続データのバイト数をtとした時、繰り返しmovenhoやである $mov\{t\}$ 命令を実行する場合について考える
  - ・前述の通り、memcpy命令やmemmove命令で内部的に使用される
- この命令により、本来は%rcx \* sizeof(t)がアドレス%rsiから アドレス%rdiにコピーされるはずである
  - •早い話がmemcpy(%rdi, %rsi, %rcx \* sizeof(t))のようなイメージ
- しかし、Tiger Lake CPUで試した所、データ粒度や%rcxの値に 関わらず、キャッシュライン2つ分(128バイト)までrep movから GDSによりデータを漏洩させられる事が分かった
  - ・コピーサイズが128バイトよりも小さい場合でもこの挙動が発生する

## 繰り返しmove命令への攻撃(2/2)



- rep mov命令は**広範な場面で使用**されているため、以下の理由によりセキュリティ上のリスクが大きいものとなっている:
  - rep movは大きな連続秘密データの転送に用いられる事が多いmemcpyで使われるため、そこかしこで秘密が漏洩するリスクとなり得る
  - ・最大で**128バイトの境界外データ**を**漏洩**させてしまうため、ある種の **過渡的バッファオーバーフロー**ともみなせる挙動が行われてしまう
  - rep movに対するGDSにより、攻撃者は本来アクセスできない領域の データを取得できてしまうため、**混乱した代理ガジェット**として 機能してしまう可能性がある
- rep mov命令によるこの過剰なプリフェッチは、rep mov命令の 投機的な動作に起因する可能性があると参考文献[12]が示す研究 において確認されている

## データ漏洩ガジェット(1/5)



ここでは、特に繰り返しmove命令からGDSにより任意の 静止データを漏洩させる攻撃について詳細に見ていく

 伝統的なバッファオーバーフロー(BoF)攻撃やSpectre攻撃には 脆弱ではないが、興味対象のデータをベクトルレジスタに取り込み、 結果としてGDSによりそれを漏洩できてしまう3通りのコード列 (ガジェット)を紹介する

## データ漏洩ガジェット(2/5)



• 3通りのガジェットのコード列は以下の通り:

```
f(copySize < sizeof(local) &&
 copySize+index < sizeof(source)){</pre>
 memcpy(local, source+index, copySize);
f(copySize >= sizeof(local) ||
 copySize+index >= sizeof(source)){
 copySize = 0;
memcpy(local, source+index, copySize);
f(copySize < sizeof(local))
  memcpy(local, source+index, copySize);
```

## データ漏洩ガジェット (3/5)



- ■ガジェット1:安全なチェック
- 境界外の読み取りや書き込みの双方を回避するための正しい 入力サニティチェックを行っている例
  - ・サニティチェック: 境界外参照が起きないかのチェックの事
- ソフトウェアレベルでは安全だが、GDSによりソースバッファの 境界を超えた漏洩が可能であり、また攻撃者がインデックスを 入力できるため、攻撃の幅も広い
- 例えば、sizeof(source) = 64、index = 63、copySize = 1
   である場合、サニティチェックには合格するが、rep movに伴う
   境界外プリフェッチにより後続の128バイト分が漏洩してしまう
  - ・いわばインデックス64~191に相当する部分

## データ漏洩ガジェット(4/5)



#### ■ガジェット2:安全なNOPチェック

- ・コピーサイズとインデックスをチェックし、それが境界外アクセスに繋がっていると判断した場合、単純にcopySizeを0にする実装
- このようなゼロサイズmemcpyはC言語やrep movにて行われるが、 最適化によりNOP命令に置換される
  - よって、アーキテクチャ的にはコピー処理自体が試行されない
- しかし、この場合もCPUによるNOPプリフェッチによって 値が取得され、GDSによってそれを漏洩させる事ができてしまう

## データ漏洩ガジェット(5/5)



- ■ガジェット3:バグはあるが従来型攻撃への悪用はできない例
- ユーザにはアクセスできない非公開なlocalバッファに対して コピーを行う例
- ・localのメモリ破壊は発生しない一方、インデックスのチェックを 行っていないため、 sourceバッファの境界外読み取りは発生する
- ・ただし、**localバッファ**が**非公開**なため、本来はlocal経由で**sourceの 境界外**を**読み取る事はできない**
- しかし、この場合もsource+indexの位置を起点としたCPUによる 境界外プリフェッチが発生し、GDSによる漏洩ができてしまう

## ユーザ空間からのカーネルメモリの読み取り(1/4)



- ここまで説明したガジェット1~3を実際に実装し、ユーザ権限の 攻撃者がGDSを用いてカーネルデータを漏洩させる実験を行う
- 従来型のソフトウェア攻撃でカーネルを侵害できないよう、 indexやcopySizeといったユーザ入力はioctlを通じて受け付ける、 ローダブルカーネルモジュール(LKM)を作成する
  - LKM:後付で追加できる、OSカーネルを拡張するオブジェクトファイル。/dev/moduleのようにマウントして使用する。勿論削除(アンマウント)も可能。
  - ioctl:ドライバとやり取りをするためのシステムコール
- コピー先のlocalバッファについても、全ガジェットにおいて 非公開バッファであるとする

## ユーザ空間からのカーネルメモリの読み取り(2/4)



・あるプロセスを用いてユーザ空間からioctl経由でindexと copySizeを提供し、並行するシブリングスレッド上のプロセスで GDSを実行する

・攻撃者は、indexを操作する事で目当てのデータをプリフェッチさせ GDSにより漏洩させる事ができる

- まずdwordを1つ漏洩させ、次に2バイトだけ先に進める。 前の反復の後半2バイトと現在の反復の前半2バイトが一致したら、 エラーが発生していないとして受理する、という操作を繰り返す
  - これにより観測結果を確実性の高いものにする事ができる

#### ユーザ空間からのカーネルメモリの読み取り(3/4)



- まず、ガジェット1を悪用し、Tiger Lake CPU上でこの攻撃を 実行する
- sourceバッファはキャッシュラインサイズ(64バイト)にアラインされているものとする
  - sourceバッファがキャッシュラインサイズぴったりだと、プリフェッチャが sourceの次のキャッシュライン2つ分を読むように判断し取得するため、 境界外の128バイトをベクトルレジスタに持って来られる
- ・それぞれ10回攻撃を実行した所、128バイトの境界外の カーネルデータを平均1.04秒で漏洩させる事に成功した

## ユーザ空間からのカーネルメモリの読み取り(4/4)



- また、238バイトのLinuxバナー文字列を、ガジェット2では 1.37秒、ガジェット3では1.58秒で漏洩させられた
  - Linuxバナー文字列:ビルドバージョンやタイムスタンプが記載されている、 カーネルメモリ上の文字列[13][14]。OS起動時によく目にする。
- Linuxカーネルのバイナリでは2728個のrep mov系命令が存在し、 ソースコードでは合わせて25992個のmemcpy及びmemmove (前述の通り、内部でrep mov系命令を用いている)が見つかった
- このように、原因となる命令が広範に存在する上、本来バグですら無いコード(ガジェット1・2)でもGDSによって漏洩が発生するため、対策に難儀するであろう事が想像できる

# Gather Value Injection

## Gather Value Injection (1/6)



・GDSは**Meltdown型**の過渡的実行攻撃であるため、LVI同様 ベクトルレジスタから漏洩した値を後続の命令への**注入に転用** できる事が推測できる

- 実際に、DownfallではGather Value Injection (GVI) として GDSをLVI的な攻撃に転用する事に成功している
  - LVIについての詳細はSGX攻撃編③のスライドを参照

• LVIとは異なり、ほぼSGX専用の攻撃というわけではない

#### Gather Value Injection (2/6)



- GVIの概要図は以下の通り
  - 比較的LVI-SBに類似している



## Gather Value Injection (3/6)



- Downfallの論文では、2通りのGVIガジェットのコード例を示している:
  - [i]がついている部分はSIMD的に処理される部分だと考えられる

```
// Gadget A: Gather followed by a load
new_index[i] = gather(index_base, index[i]);
value = data_base[new_index[0]];
leak_to_side_channel(value);

// Gadget B: Double gather
new_index[i] = gather(index_base, index[i]);
values[i] = gather(data_base, new_index[i]);
leak_to_side_channel(values[i]);
```

## Gather Value Injection (4/6)



- ガジェットAでは、GDSによってnew\_indexにベクトルレジスタ 由来の値を過渡的に代入し、後続の過渡的命令における配列参照の インデックスとして注入している
  - GDSによりnew\_indexに格納された値を境界外を指すような**不正な値** にする事で、本来アクセスしてはいけない**秘密情報を参照**できてしまう
- ガジェットBも基本的にAと同様だが、valuesに対する代入 (過渡的注入)をSIMD的に行う事で、より効率的に攻撃による 秘密の盗聴が可能となる
- ベクトルレジスタを不正なインデックスで埋め尽くすため、 攻撃者は並行するシブリングスレッド上でそのような値のvmovを 繰り返す

## Gather Value Injection (5/6)



- ・実際にGVIによって秘密情報を漏洩させる実験も論文では行っている
  - ・いずれのガジェットにおいても、キャッシュに痕跡を残しサイドチャネル的 に観測するのはGDSやLVIと同様
- GDS同様、Gather対象をキャッシュ不可能として過渡的実行を 誘発する。また、Gatherの前にキャッシュミスを誘発させる事で 過渡的実行ウィンドウを拡大させている

- Tiger Lake CPUで10秒間GVIを実行するのを100回繰り返した所、 1秒間に平均8734.3バイトの境界外データを漏洩させる事に成功
  - ガジェットA・Bのどちらが使用されたのかは論文中に明記されていない

## Gather Value Injection (6/6)



・これもGDS同様に、GVIも必ずしも**過渡的実行の誘発**に **異常(Exotic)アドレス**を**用いる必要はない** 

・先程のガジェットのような、Gather命令を用いた二重インデックスを用いている例として、耐量子公開鍵暗号の1つである CRYSTALS-KYBER[15]の実装が挙げられる

# SGXへのGDS攻撃

#### SGXへのGDS攻撃(1/4)



- ・攻撃の実例の最後として、**おまけ程度にSGXのEnclave**から **シーリング鍵を抽出**する攻撃を考案し実現に成功している
- Enclaveのコードページを実行不能としゼロステップ処理を 発動させる事で、AEXの度に同一ハイパースレッド上でGDSを 実行する
  - ゼロステップ処理に関してはForeshadowの解説(SGX攻撃編③)を参照
- これにより、AEXやERESUMEの内部実装である[9]fxsaveや fxrstorから、予めベクトルレジスタに格納しておいた既知の 古い値が漏洩する事が判明した
  - Kaby Lake向けの当時最新のマイクロコードアップデートを適用した 状態でも漏洩可能であった
  - さらに、ハイパースレッド不使用でも攻撃に成功した

#### SGXへのGDS攻撃(2/4)



- シーリング鍵の中でも、EPID-RAにおける信頼性の根拠そのものであるAttestationキーをシーリング/アンシーリングするために使用される、PSK (Provisioning Seal Key)を抽出する
  - PSKはAttestationキーを取り扱うPvEやQEにより使用される
- 当然、PSKが漏洩すればAttestationキーも簡単にPSKで復号し 抽出できてしまう
- 他の攻撃の場合と同様、Attestationキーが漏洩する事で
   QUOTE構造体の偽造が可能となり、Intelにより失効してもらわない
   限りRAの信頼性が破綻してしまう

#### SGXへのGDS攻撃(3/4)



- シーリングのためにSGXSDKで用意されているsgx\_seal\_data関数は、内部でEGETKEY命令のラッパーであるsgx\_get\_key関数を呼び出している
- sgx\_get\_key関数は、まず初めにAES鍵の鍵伸長のために
   I9\_aes128\_KeyExpansion\_NI関数を呼び出しているが、これがAES-128のマスター鍵をベクトルレジスタxmm0にロードしている
  - AESの鍵伸長についてはLVIの解説(SGX攻撃編③)を参照
- よって、sgx\_seal\_dataの最初で一時停止し、SGX-Step等を使用しつつゼロステップ処理を行えば、xmm0のコンテキストを内包するSSAからAES鍵(=PSK)を抽出できる

#### SGXへのGDS攻撃(4/4)



• 攻撃対象のI9\_aes128\_KeyExpansion\_NI関数は以下のような コードである:

```
<19_aes128_KeyExpansion_NI>:
endbr64
vmovdqu (%rsi),%xmm0
vpslldq $0x4,%xmm0,%xmm2 // <-- Zero Stepping</pre>
```

- ・実際にvpgatherddとvpermdd(Permute命令)を使用したGDSを 10秒間実行してAEから**4つの異なるdwordを抽出**し、最も高い頻度 で出現したものを組み合わせた所、**PSKを構築する事に成功**した
  - PvEかQEのどちらを攻撃したのかは明記されていないが、sgx\_seal\_dataを 攻撃するという記述から、PvEを狙っていると推察できる



## 軽減策(1/4)



- ・ハイパースレッディングの無効化は部分的に有効だが、動作性能に 影響がある上、SGXへの攻撃のようなコンテキストスイッチに伴う GDSによる漏洩は対策できない
  - そもそもハイパースレッドを攻撃に用いていないため

・影響を受けるSIMD命令の禁止やGatherの無効化は、動作性能の著しい低下やソフトウェア互換性の喪失を招く可能性があり、 様々なシナリオにおいて致命的となり得る

## 軽減策(2/4)



LVI等と同様、Gather命令の後ろにIfence命令を挿入する事で、 後続の命令への過渡的転送を阻止しGVIを阻止する事が可能

- ・コンパイラが信頼可能かつ実行バイナリ中の命令を攻撃者が 選択できない状況であれば、コンパイラがGather命令の内部に Ifenceを挿入する事でGDSも対策できる
  - SGXであれば上記の対策を盛り込んだEnclaveイメージを作成した上で、 RAでMRENCLAVEをチェックする事により信頼し軽減を実現できる
- 実際に、IntelはGDSとGVIを軽減するための、Gatherからの 過渡的転送を防ぐマイクロコードアップデートをリリース予定である
  - 恐らく既にリリースされている

## 軽減策(3/4)



- MeltdownタイプやMDSタイプの攻撃を発見するファジングベースの テストツールとして、Transynther[17]というものがある
  - ・ファジング: 異常値を入力する事でシステムの欠陥を検出するテスト手法

従来のTransyntherではGather命令についてのテストを生成していなかったために、今まではGDSを発見できていなかった

## 軽減策(4/4)



- そこでGatherのテストのみを行うようTransyntherを改造して 実行した所、様々な場合におけるGDSの自動的な発見に成功した
  - 並行するシブリングスレッドを使う場合と使わない場合の双方にて、 様々な誘発条件(Meltdown-MPK/UC/US)に基づくGDSを発見

この事から、他のMeltdownタイプの過渡的実行攻撃と同様、 Gatherのような命令でもそのMeltdown型脆弱性の自動的な発見に 有効であると考えられる

#### 参考文献(1/3)



[1]"ZombieLoad: Cross-Privilege-Boundary Data Sampling", Michael Schwarz et al., <a href="https://zombieloadattack.com/zombieload.pdf">https://zombieloadattack.com/zombieload.pdf</a>

[2]"キャッシュの書き込みポリシーと仮想記憶", 天野英晴 (慶應義塾大学), <a href="https://www.am.ics.keio.ac.jp/parthenon/cache2.pdf">https://www.am.ics.keio.ac.jp/parthenon/cache2.pdf</a>

[3]"Rapid Prototyping for Microarchitectural Attacks", Catherine Easdon et al., <a href="https://www.usenix.org/system/files/sec22-easdon.pdf">https://www.usenix.org/system/files/sec22-easdon.pdf</a>

[4]"ZombieLoad Attack", Daniel Gruss et al., <a href="https://gruss.cc/files/zombieload\_36c3.pdf">https://gruss.cc/files/zombieload\_36c3.pdf</a>

[5]"64bitでのアドレス空間", 2023/9/27閲覧, <a href="https://wiki.bit-hive.com/linuxkernelmemo/pg/64bit%E3%81%A7%E3%81%AE%E3%82%A2%E3%83%89%E3%83%AC%E3%82%B9%E7%A9%BA%E9%96%93">https://wiki.bit-hive.com/linuxkernelmemo/pg/64bit%E3%81%A7%E3%81%AE%E3%82%A2%E3%83%89%E3%83%AC%E3%82%B9%E7%A9%BA%E9%96%93</a>

[6]"ページング入門", 2023/09/28閲覧, <a href="https://os.phil-opp.com/ja/paging-introduction/#peziteburunoxing-shi">https://os.phil-opp.com/ja/paging-introduction/#peziteburunoxing-shi</a>

[7]"Intel SGX Explained", Victor Costan & Srinivas Devadas, <a href="https://eprint.iacr.org/2016/086.pdf">https://eprint.iacr.org/2016/086.pdf</a>

#### 参考文献(2/3)



[8]"Downfall: Exploiting Speculative Data Gathering", Daniel Moghimi, <a href="https://downfall.page/media/downfall.pdf">https://downfall.page/media/downfall.pdf</a>

[9]"Downfall Attacks", Daniel Moghimi, <a href="https://downfall.page/">https://downfall.page/</a>

[10]"Gather Data Sampling", Intel,

https://www.intel.com/content/www/us/en/developer/articles/technical/software-security-guidance/technical-documentation/gather-data-sampling.html

(魚拓: <a href="https://archive.is/NCTdf">https://archive.is/NCTdf</a>)

[11]MOVDIR64B — Move 64 Bytes as Direct Store, 2023/10/15閲覧, <a href="https://www.felixcloutier.com/x86/movdir64b">https://www.felixcloutier.com/x86/movdir64b</a>

[12] Hide and Seek with Spectres: Efficient discovery of speculative information leaks with random testing, Oleksii Oleksenko et al., <a href="https://arxiv.org/pdf/2301.07642.pdf">https://arxiv.org/pdf/2301.07642.pdf</a>

#### 参考文献(3/3)



[13]コメントから読む Linux カーネル, Sano Taketoshi, <a href="http://archive.linux.or.jp/JF/JFdocs/readkernel.html">http://archive.linux.or.jp/JF/JFdocs/readkernel.html</a>

[14]linux/init/version-timestamp.c, GitHub, <a href="https://github.com/torvalds/linux/blob/b85ea95d086471afb4ad062012a4d73cd328fa86/init/version-timestamp.c#L28">https://github.com/torvalds/linux/blob/b85ea95d086471afb4ad062012a4d73cd328fa86/init/version-timestamp.c#L28</a>

[15]CRYSTALS-Kyber: a CCA-secure module-lattice-based KEM, Joppe Bos et al., <a href="https://eprint.iacr.org/2017/634.pdf">https://eprint.iacr.org/2017/634.pdf</a>
実装: <a href="https://csrc.nist.gov/CSRC/media/Projects/post-quantum-cryptography/documents/round-3/submissions/Kyber-Round3.zip">https://csrc.nist.gov/CSRC/media/Projects/post-quantum-cryptography/documents/round-3/submissions/Kyber-Round3.zip</a>

[16]Intel® Software Guard Extensions Programing Reference, Intel, <a href="https://www.intel.com/content/dam/develop/external/us/en/documents/329298-002-629101.pdf">https://www.intel.com/content/dam/develop/external/us/en/documents/329298-002-629101.pdf</a>

[17] Medusa: Microarchitectural Data Leakage via Automated Attack Synthesis, Daniel Moghimi et al., <a href="https://www.usenix.org/system/files/sec20-moghimi-medusa.pdf">https://www.usenix.org/system/files/sec20-moghimi-medusa.pdf</a>