コードの鍛冶場 - JVM GCを深く理解しチューニングする：大規模システムの安定稼働とパフォーマンス向上への「鍛錬」

JVM GCを深く理解しチューニングする：大規模システムの安定稼働とパフォーマンス向上への「鍛錬」

Tags: JVM, GC, パフォーマンスチューニング, 大規模システム, Java

はじめに：JVM GCと大規模システムの複雑性

コードの鍛冶場に集う熟練のプログラマーの皆様、日々の鍛錬お疲れ様です。

現代の大規模システムにおいて、Javaはその堅牢性とエコシステムの豊かさから、依然として基幹技術の一つとして広く採用されています。しかし、Javaアプリケーションのパフォーマンスと安定稼働を追求する上で、避けて通れない、時に極めて困難な課題がJVMのガベージコレクション（GC）です。特に、数テラバイトを超える巨大なヒープを持つアプリケーションや、応答性能がミリ秒オーダーで要求されるサービスにおいては、GCの挙動がシステム全体の健全性を決定づけると言っても過言ではありません。

GCはJVMが自動的にメモリを管理してくれる便利な機能ですが、その「自動」の裏側には複雑なアルゴリズムと、システム負荷、ヒープ状態、オブジェクトの生存期間などが織りなすダイナミックな挙動が存在します。表面的な理解に留まらず、その深淵に分け入り、自らの手で制御できるようになることは、プログラマーとしての重要な「鍛錬」のプロセスです。

本記事では、大規模Javaシステムに携わるリードエンジニアやテックリードの視点から、JVM GCの基礎、主要なアルゴリズムの特性、実践的なチューニング手法、そしてGCの挙動がシステムアーキテクチャ設計に与える影響について深く掘り下げていきます。単なるオプションの説明に終わらず、GCの設計思想やトレードオフを理解し、システムの安定稼働とパフォーマンス向上に繋げるための知見を共有することを目的とします。

ガベージコレクションの基礎と大規模システムにおける課題

ガベージコレクションの基本的な役割は、どのスレッドからも参照されなくなったオブジェクトが占めるメモリ領域を解放し、再利用可能にすることです。このプロセスは大きく分けて以下のステップを含みます。

Marking (マーキング): 生存しているオブジェクト（ガベージではないオブジェクト）を特定します。ルートセット（スタック上の変数、静的変数など）から到達可能なオブジェクトを全てマークします。
Sweeping (スイーピング): マークされなかったオブジェクトが占めるメモリ領域を「ゴミ」としてリストアップします。
Compacting (コンパクション): 断片化された空き領域を一つにまとめるために、生存オブジェクトをメモリ上で移動させます。これはオプションであり、全てのGCアルゴリズムがコンパクションを行うわけではありません。

初期のGCアルゴリズムや一部のアルゴリズムでは、これらのステップの実行中にアプリケーションスレッドを一時停止させる必要がありました。これを「Stop-The-World (STW)」ポーズと呼びます。STWポーズが長くなると、アプリケーションの応答性が著しく低下し、タイムアウトやユーザー体験の悪化を招きます。

大規模システムにおいては、以下のようなGCに関する特有の課題が発生しやすくなります。

巨大なヒープサイズ: 多数のオブジェクトが生成・破棄されるため、GCの対象となるメモリ量が増大し、GCサイクルが長時間化したり、頻繁に発生したりする可能性が高まります。
短いSTW時間の要求: 高可用性や低レイテンシが求められるシステムでは、GCによるSTWポーズは極力短く抑える必要があります。数秒、あるいはそれ以上のSTWは許容されないことが一般的です。
メモリフットプリントの増大: オブジェクト生成・破棄のパターンによっては、効果的なGCが行われず、不要なオブジェクトが長時間メモリに残り続け、メモリ使用量が増大することがあります（メモリリーク）。
スループットとレイテンシのトレードオフ: GCの効率（スループット）を追求するとSTW時間が長くなり（レイテンシ悪化）、STW時間を短くしようとするとGC全体の実行時間が長くなったり、より多くのCPUリソースが必要になったりする（スループット悪化）といったトレードオフが存在します。
断片化: オブジェクトの生成と破棄が繰り返されることでメモリが断片化し、大きなオブジェクトをアロケートできなくなることがあります。コンパクションはこの問題を解決しますが、コストがかかります。

これらの課題に対処するため、JVMのGCアルゴリズムは進化を続けてきました。

主要なGCアルゴリズムとその特性

JVMにはいくつかのGCアルゴリズムが実装されており、それぞれ異なる設計思想とトレードオフを持っています。大規模システムで特に考慮される主要なアルゴリズムは以下の通りです。

Parallel GC (スループットGC):
- 新生代と老年代のGCをマルチスレッドで実行し、全体のスループット（アプリケーション実行時間に対するGC以外の時間）を最大化することを目指します。
- GC実行中は基本的にSTWポーズが発生します。スレッド数が多いほどSTWは短くなりますが、完全にゼロにはできません。
- バッチ処理など、GCポーズ時間よりも全体のスループットが重要な場合に適しています。
CMS GC (Concurrent Mark Sweep GC):
- Old世代のGCにおいて、マーキングとスイーピングのほとんどをアプリケーションスレッドと並行して実行することで、STWポーズ時間を短縮することを目指したアルゴリズムです（JDK 9で非推奨、JDK 14で削除）。
- コンパクションを行わないため、メモリの断片化が発生しやすい欠点がありました。
- 低レイテンシが求められるWebアプリケーションなどで一時期広く使われました。
G1 GC (Garbage-First GC):
- ヒープを多数のリージョンに分割し、リージョン単位でGCを行います。GC対象として最も解放効率の良いリージョンを優先的に選択することから「Garbage-First」と名付けられました。
- 新生代と老年代の区別は物理的ではなく論理的です。
- STWポーズ時間を予測可能な範囲に収めることを目標とし、コンカレント（並行実行）とパラレル（並列実行）を組み合わせて動作します。Optionalでコンパクションも行います。
- CMSに代わる低ポーズタイムGCとして、現在多くの大規模システムでデフォルトまたは推奨されています。
Shenandoah GC:
- JDK 12で標準機能として導入されました（当初はOpenJ9やAzul Zingで提供）。
- コンカレントにオブジェクトを移動させることで、ヒープサイズに関わらずSTWポーズ時間を非常に短く（多くの場合10ms未満）抑えることを目標としています。
- GCとアプリケーションスレッドが同時にメモリを操作するため、特別なバリア（読み取りバリア）を必要とし、わずかながらアプリケーションスレッドのオーバーヘッドが増加します。
- 非常に低いレイテンシが絶対的に求められるアプリケーションに適しています。
ZGC (Z Garbage Collector):
- JDK 11で実験的に導入され、JDK 15で標準機能となりました。
- Shenandoahと同様に、ヒープサイズに依存しない非常に短いSTWポーズ時間（多くの場合1ms未満）を実現することを目標としています。
- 64bitシステム専用であり、Tagged Pointersなどの先進的な技術を使用しています。
- 読み取りバリアによるオーバーヘッドはShenandoahより小さい傾向がありますが、こちらもアプリケーションスレッドにある程度の負荷をかけます。
- 極めて低いレイテンシと巨大なヒープサイズ（数TB）を扱うアプリケーションに適しています。

| GCアルゴリズム | 目標 | STWポーズ時間 | 並列/並行性 | コンパクション | 断片化 | 適性 | | :------------- | :-------------- | :--------------- | :---------------------------------------- | :------------- | :----- | :------------------------------------------ | | Parallel | スループット最大 | やや長い | Y (Mark, Sweep, Compact) | Y | 小 | バッチ処理、GCポーズが許容されるアプリケーション | | CMS | レイテンシ削減 | 短い (老年代) | Y (Mark, Sweep) | N | 大 | 低レイテンシWebアプリ (非推奨) | | G1 | 予測可能なポーズ | 短い | Y (Mark, Sweep, Compact) + Concurrent Mark | Y | 小 | 多くの大規模システム、低ポーズが求められるアプリ | | Shenandoah | 超低ポーズ | ヒープサイズ非依存 | Y (Mark, Sweep, Compact, Relocate) | Y | 小 | 極めて低いレイテンシが求められるアプリ | | ZGC | 超低ポーズ | ヒープサイズ非依存 | Y (Mark, Sweep, Compact, Relocate) | Y | 小 | 極めて低いレイテンシと巨大ヒープを扱うアプリ |

GCチューニングの実践的アプローチ

GCチューニングは、単にコマンドラインオプションをいくつか設定すれば完了するものではありません。それはシステムの状態を観測し、仮説を立て、変更を加え、その効果を測定するという、科学的かつ反復的なプロセスです。

1. 現状把握：GCログの解析とモニタリング

チューニングの第一歩は、現在のGCの挙動を正確に把握することです。これにはGCログの出力と解析が不可欠です。

# GCログを有効にする主要なJVMオプション (JDK 9以降の推奨)
-Xlog:gc*:file=/path/to/gc.log:time,uptime,level,tags:filecount=10,filesize=10M

このオプションは、詳細なGCイベント、ポーズ時間、ヒープの使用量推移などを指定したファイルに出力します。GCログは非常に詳細ですが、そのまま読むのは困難なため、GCViewer, GCEasy, GCPlotのような解析ツールを利用することが推奨されます。

GCログ解析から得られる重要な情報：

GCポーズの頻度と時間: STWポーズがどのくらいの頻度で発生し、それぞれどのくらいの時間がかかっているか。目標とするレイテンシを満たせているか。
GCの種類: Minor GC (新生代) と Full GC (全世代) の発生頻度。Full GCが頻繁に発生している場合は、老年代への昇格が早すぎる、またはメモリリークの兆候かもしれません。
ヒープ使用量: GC前後のヒープ使用量の推移。ヒープが逼迫しているか、余剰があるか。メモリリークのパターンが見られないか。
プロモーション: 新生代から老年代へ昇格するオブジェクトの量。不要なオブジェクトが老年代に昇格していないか。
年代別の生存率: 新生代、生存領域（Survivor Space）、老年代におけるオブジェクトの生存率。

GCログ解析だけでなく、JMX (JConsole, VisualVM)、あるいはPrometheus + Grafanaのようなモニタリングシステムと連携し、GC関連のメトリクス（GC時間合計、ポーズ時間、ヒープ使用率、GCスレッド数など）を継続的に監視することも重要です。

2. チューニングの戦略と主要オプション

GCの目標（スループット重視か、レイテンシ重視か）に基づいて、適切なGCアルゴリズムを選択し、関連するオプションを調整します。

最も重要なオプション:

-Xmx<size>: 最大ヒープサイズ。小さすぎるとGCが頻繁になり、大きすぎるとGCポーズが長くなる傾向があります。システム全体のメモリ量、アプリケーションのメモリ使用パターン、選択したGCアルゴリズムを考慮して決定します。
-Xms<size>: 初期ヒープサイズ。-Xms と -Xmx を同じ値に設定すると、ヒープサイズの動的な拡張・縮小に伴うGCを回避できます。
-XX:+Use<GC Name>: 使用するGCアルゴリズムを指定します。例えば -XX:+UseG1GC, -XX:+UseShenandoahGC, -XX:+UseZGC です。JVMのデフォルトGCはバージョンによって異なります（JDK 8u20以降はParallelGCがデフォルト、JDK 9以降はG1GCがデフォルト）。
-XX:MaxGCPauseMillis=<ms> (G1, Shenandoah, ZGC): 目標とするGCポーズ時間の最大値（あくまで目標であり、保証値ではありません）。GCはこの目標を満たすように動作を調整しますが、過度に小さい値を設定すると、GCが頻繁になりスループットが低下したり、目標を達成できずに警告が出力されたりします。
-XX:NewRatio=<ratio> (Parallel, CMS): 新生代と老年代のサイズの比率を設定します (Old : New = ratio : 1)。-XX:NewRatio=2 なら Old:New = 2:1 となります。
-XX:SurvivorRatio=<ratio> (Parallel, CMS): 新生代におけるEden領域とSurvivor領域のサイズの比率を設定します (Eden : Survivor = ratio : 1)。
-XX:MetaspaceSize=<size>, -XX:MaxMetaspaceSize=<size>: メタスペース（クラス定義などが格納されるヒープ外領域）の初期サイズと最大サイズ。OOM: Metaspaceエラーが発生する場合に調整が必要です。
-XX:ParallelGCThreads=<n> (Parallel, G1): GCワーカーとして使用するスレッド数を設定します。通常、CPUコア数に合わせて設定します。

レイテンシ重視のチューニング (G1, Shenandoah, ZGC):

まずは適切なGCアルゴリズム（G1, Shenandoah, ZGC）を選択します。
-XX:MaxGCPauseMillis=<ms> で目標ポーズ時間を設定します。
ヒープサイズ -Xmx は大きめに設定することで、GCの頻度を減らせる可能性がありますが、GCサイクルあたりの作業量は増えます。アルゴリズムの特性（ヒープサイズへの依存性）を理解して調整します。
G1の場合、-XX:G1HeapRegionSize=<size> を調整することで、リージョンサイズを変更し、GCの粒度を変えることができます。
コンカレントGCに十分なCPUリソースが割り当てられているか確認します。

スループット重視のチューニング (Parallel):

-XX:+UseParallelGC を使用します。
ヒープサイズ -Xmx をアプリケーションが必要とする最大メモリ量より少し大きめに設定します。
新生代のサイズ -Xmn<size> または -XX:NewRatio=<ratio> を調整し、マイナーGCでより多くのオブジェクトが回収されるように試みます。新生代を大きくするとマイナーGCの間隔は長くなりますが、ポーズ時間は長くなる可能性があります。
-XX:ParallelGCThreads をCPUコア数に適切に設定します。

3. メモリリークの発見と対処

GCチューニングと並行して、メモリリークの有無を確認することも非常に重要です。不要なオブジェクトがGCされずにヒープに残り続けると、ヒープが徐々に逼迫し、頻繁なFull GCや最終的なOutOfMemoryErrorを引き起こします。

メモリリークの兆候：

GCログで、GC後のヒープ使用量が継続的に増加している。
jstat -gc <pid> でEdison Surivor Old Generation (ESOG) 使用量が増え続けている。
モニタリンググラフでヒープ使用率が右肩上がりになっている。

メモリリークの調査には、ヒープダンプ（Heap Dump）の取得と解析が必要です。

# OutOfMemoryError発生時に自動でヒープダンプを出力
-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/heapdump.hprof

# 手動でヒープダンプを出力
jmap -dump:format=b,file=/path/to/heapdump.hprof <pid>

取得したヒープダンプは、Eclipse MAT (Memory Analyzer Tool) や VisualVM のようなツールで解析します。これらのツールを使えば、ヒープ内のオブジェクト数をクラスごとに集計したり、特定のオブジェクトへの参照パスを調べたりすることができ、リークの原因となっているオブジェクトや参照関係を特定する手がかりが得られます。

4. コンテナ環境における考慮事項

DockerやKubernetesのようなコンテナ環境でJavaアプリケーションを実行する場合、GCチューニングにはいくつかの特別な考慮事項があります。

メモリ制限: コンテナにはメモリ制限が設定されていることが一般的です。JVMがコンテナのメモリ制限を正しく認識しないと、コンテナの外から見るとメモリが余っているように見えても、JVM内部ではOOMが発生するといった問題が起こり得ます。JDK 8u131以降、JDK 9以降では、-XX:+UseContainerSupport がデフォルトで有効になり、/proc/meminfo や /sys/fs/cgroup を参照してコンテナのメモリ・CPU制限を考慮するようになりました。
CPU制限: コンテナのCPU制限（CPU shares, CPU quotas）もGCの並列実行スレッド数に影響を与えます。JVMが認識するCPUコア数と実際に利用可能なCPUリソースを考慮して、-XX:ParallelGCThreads などを調整する必要があります。
リソース競合: 同じノード上の他のコンテナとのリソース競合が、GCのパフォーマンスに影響を与える可能性があります。

GCの挙動がシステムアーキテクチャ設計に与える影響

GCの特性を理解することは、単なる運用時のチューニングに留まらず、システムアーキテクチャの設計判断にも深く関わってきます。

サービス境界の設計: マイクロサービスにおいて、巨大なヒープを持つサービスはGCポーズが長くなり、サービス全体の可用性や応答性に影響を与えやすくなります。もし特定の処理で大量のオブジェクトを生成・破棄するのであれば、それを独立した小さなサービスとして分離することを検討するなど、GC特性を考慮したサービス境界設計が重要になります。
オブジェクト生成パターン: 短命なオブジェクトが大量に生成されるパターンは、新生代GCに大きな負荷をかけます。キャッシュ戦略やオブジェクトプーリングなど、オブジェクトの生存期間を意識した設計や実装はGCの効率に直結します。
データ構造の選択: GC効率の良いデータ構造を選択することも重要です。例えば、要素の削除が多い場合はLinkedListよりArrayListの方がGC効率が良い場合がある、といった点も考慮に入れます。
キャッシュ戦略: アプリケーションレベルのキャッシュは、GC対象となるオブジェクト数を減らすことでGC負荷を軽減できますが、キャッシュ自身のメモリ管理や無効化戦略が複雑になるトレードオフがあります。また、キャッシュの最大サイズがヒープサイズにどのように収まるか、そのオブジェクトの生存期間を考慮する必要があります。
技術選定: 低レイテンシが極めて重要で、JVMのGCがボトルネックになることが明らかであれば、JVMベースではないランタイム（Go, Rustなど）の採用を検討するといった、より根本的な技術選定の判断材料となり得ます。

GCの挙動は、コードレベルの実装詳細から、サービス分割、インフラ構成に至るまで、様々なレイヤーの設計判断に影響を及ぼすのです。

失敗事例とそこから学ぶ教訓

過去に私自身やチームが経験したGC関連の障害は数多くあります。その中から典型的な失敗事例とその教訓を一つご紹介します。

事例:

ある大規模オンラインサービスのバックエンドアプリケーションで、特定の時間帯にリクエスト応答時間が急激に悪化し、タイムアウトエラーが多発するようになりました。調査の結果、この時間帯に発生するバッチ処理が原因で、アプリケーションのヒープが逼迫し、数秒にも及ぶFull GCが頻繁に発生していることが判明しました。このFull GCの間、アプリケーションスレッドは停止するため、大量のリクエストが処理されずにキューに滞留し、最終的にタイムアウトしていました。

原因:

バッチ処理で、巨大なデータを一時的にメモリ上にロードし、加工・集計していた。処理が完了しても一部のオブジェクトへの参照が残り、メモリリークに近い状態になっていた。
ヒープサイズが不足しており、バッチ処理によるメモリ使用量の急増に対応できなかった。
GCログを常時監視しておらず、ヒープ逼迫の兆候に早期に気づけなかった。
バッチ処理とオンライン処理が同じJVMプロセスで動作しており、バッチ処理の負荷がオンライン処理に直接影響を与えてしまった。

教訓:

メモリ使用量のプロファイリングと予測: 大量のメモリを消費する処理（特にバッチやデータ処理）については、事前にプロファイリングを行い、最大メモリ使用量を正確に把握しておくことが重要です。
適切なヒープサイズの設定: アプリケーションのメモリ使用パターン（定常時、ピーク時）を考慮し、適切なヒープサイズを設定します。余裕がありすぎるとGC時間が長くなり、なさすぎると頻繁なGCやOOMに繋がります。
継続的なGC監視とアラート: GCポーズ時間、GC頻度、ヒープ使用率などを継続的に監視し、閾値を超えた場合にアラートを上げる仕組みは必須です。早期発見が被害を最小限に抑えます。
ワークロードの分離: 異なる性質を持つワークロード（オンライン処理とバッチ処理など）は、可能な限り別のJVMプロセスやサービスに分離すべきです。一方の負荷がもう一方に影響を与える「隣人ノイズ」を避けるためです。
GCアルゴリズムの再検討: この事例では、長時間STWが発生するParallelGCを使用していましたが、低レイテンシが求められるオンラインサービスにはG1 GCのような低ポーズタイムGCがより適していました。ワークロードの特性に合わせてGCアルゴリズムを選択することの重要性を再認識しました。

まとめ：終わりなき「鍛錬」としてのGC理解

JVM GCは、ブラックボックスのように見えがちですが、その仕組みを深く理解し、ツールを用いて挙動を観測し、仮説検証を繰り返すことで、確実にコントロール可能な領域を広げることができます。適切なGCアルゴリズムの選択、緻密なヒープチューニング、そして継続的なモニタリングは、大規模Javaシステムを安定稼働させ、最高のパフォーマンスを引き出すための不可欠な「鍛錬」です。

GCのチューニングは、単なる技術的な調整に留まりません。それは、アプリケーションのメモリ使用パターン、設計上の意思決定、そしてシステム全体のアーキテクチャと密接に結びついています。GCの問題に直面したとき、それは多くの場合、メモリ管理やオブジェクトライフサイクルに関する設計や実装の課題を浮き彫りにします。

この領域での「鍛錬」は終わりがありません。新しいGCアルゴリズムが登場し、JVMの内部実装も常に進化しています。探求心を忘れず、システムの挙動から学び続け、自身の技術力を「鍛え」上げていきましょう。本記事が、皆様のJVM GC理解と大規模システム運用の一助となれば幸いです。

```