HPC ワークロードと AI の融合がエクサスケール時代への道を開く

AIHPCマシンラーニング

この記事は、インテル® AI Blog に公開されている「HPC Workload Convergence Paves the Way for AI in the Exascale Era」の日本語参考訳です。


現在、ハイパフォーマンス・コンピューティング (HPC) ワークロードと人工知能 (AI) の融合方法が大きく変化し、両者の間に強力な相乗効果が生まれています。この融合は、気候研究、ヘルスサイエンス、ライフサイエンスなどの分野で起きています。以下はその一例です。

  • AI と HPCワークフローを統合して気象パターンの検出を高速化する、気候モデリングとシミュレーション。
  • 分子動力学シミュレーションと教師なしマシンラーニングを組み合わせて次の論理的な一連のシミュレーションを通知する、主要な研究施設でのがん研究と創薬の取り組み。
  • 薬物特性と解析中の腫瘍の間の反応の予測に使用される、教師ありマシンラーニング・モデル。
  • 欧州原子核研究機構 (CERN) による、敵対的生成ネットワーク (GAN) モデルのほうが従来の第一原理に基づくモデルよりも高速に実行できることの実証。

非常に多くのユースケースがあるため、独自のニーズに合ったアーキテクチャーを柔軟に選択する必要があります。

融合による利点は明らかですが、課題への対応には時間がかかります。HPC コミュニティーは、従来、分散メモリー・アルゴリズム、倍精度浮動小数点演算、大規模なデータストレージが優先される、計算中心のワークフローに注目してきました。一方、AI コミュニティーは、複数のソースからの膨大な量のデータを分析して解釈し、精度の低い演算を用いて、画像分類、翻訳、推薦エンジンから自動運転に至るまで幅広く応用する、データ中心のワークフローに注目しています。

どちらのエコシステムもそれぞれ拡大の可能性がありますが、これらを 1 つにまとめることで、新しく複雑な課題に対処できます。この融合により利点が得られるのは HPC だけではありません。AI モデルのサイズが大きくなり、より高い計算能力が必要とされるようになるにつれ、トレーニング・ワークロードは、MPI やファブリックのような HPC テクノロジーに大きく依存するようになるでしょう。HPC と AI の融合は、2 つのエコシステムを結合して、相互に利益をもたらします。

インテルは、この融合を加速させるため、AI を含む幅広いワークロードでハイパフォーマンスを実現するテクノロジーを使用してインフラストラクチャーを構築することが重要であると認識しています。インテル® Xeon® スケーラブル・プロセッサーには、ハードウェアを最適に使用するための命令を提供する、インテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) やインテル® ディープラーニング・ブースト (インテル® DL ブースト) テクノロジーなどのイノベーションが搭載されています。現在、世界中で 2000 万人以上の開発者がインテル® アーキテクチャー向けにコードを作成しています。

インテルはまた、AI アルゴリズムはまだ初期段階で進化の途中であり、さまざまな電力とパフォーマンス曲線に対する需要を考慮すると、FPGA、GPU、ASIC など、ほかの計算アーキテクチャーが必要であることを認識しており、これらの分野への投資をさらに推進しています。

融合を強力に支援する要因

現在設計中であり、今後リリースされる予定のエクサスケール・システムは、さまざまな分野でのイノベーションと発見を可能にすると同時に、HPC と AI の融合を加速します。しかし、私たちはまだ、スマートシティーが当たり前になり、自動運転が普及する、HPC と AI が完全に融合した世界の初期段階にいます。このような変化には、システム設計のパラダイムシフトが必要になります。

以下は、HPC と AI の融合にとって重要ないくつかの要因です。

  • ワークフローの最適化に注目することで、組織はインフラストラクチャーを最大限に活用できます。動的な再構成性と構成可能性は、多様な計算アーキテクチャーを利用した幅広いワークロードへの対応を促進します。oneAPI は、ヘテロジニアス環境でのアプリケーション開発と最適化に関連する複雑さを軽減するのに役立つ追加のリソースを開発者に提供します。
  • 拡張されたメモリーストレージ階層は、より大きなメモリープールへのアクセスを提供し、パフォーマンス、容量、機能のトレードオフなしに I/O ボトルネックを軽減します。オープンソースのエクサスケール対応ストレージスタックである分散型非同期オブジェクト・ストレージ (DAOS) (英語) は、融合ワークフローの高速化に必要な低レイテンシー、高帯域幅、I/O スループットを提供します。
  • ハードウェアに依存しないプログラミング・モデルを使用したソフトウェア抽象化機能の簡素化は、アプリケーションの移植性と保守性を向上します。また、異なるアーキテクチャーでアプリケーションを効率良く実行できるため、コーディングの自由度が高まります。
  • 新しいインテリジェント・システム・ソフトウェアにより、AI/マシンラーニング主導の検出、リソース管理、アプリケーションを意識した動的なプロビジョニング、および業界標準の API を介したリアルタイム管理を利用して、インフラストラクチャー全体を管理できます。

エクサスケールでの融合を現実のものにする

インテルは、アルゴンヌ国立研究所 (Argonne National Laboratory) と協力して、米国初のエクサスケール・システムの 1 つである「Aurora」を展開するため取り組んでいます。Aurora は、エクサフロップを実現し、アルゴンヌ国立研究所の既存システムと比較して、従来の HPC、AI、ハイパフォーマンス・データ解析アプリケーションのパフォーマンスを劇的に向上することが期待されています。[1]

さらに、アルゴンヌ国立研究所では、Aurora で実行されるアプリケーションの構成が今後 3 ~ 5 年の間に変化し、スーパーコンピューティング・ジョブの最大 40% がマシンラーニング・アプリケーションになると予想しています。最先端の研究・学術プログラムは、Aurora の能力を活用してソフトウェア・エコシステムを構築し、HPC、マシンラーニング、データ解析の分野で前例のないレベルのイノベーション (英語) を推進するため活動しています。Aurora には、インテル® Xeon® スケーラブル・プロセッサー (開発コード名 Sapphire Rapids) とインテル® Xe アーキテクチャー (開発コード名 Ponte Vecchio) ベースの GPU が搭載されます。開発コード名 Ponte Vecchio は、HPC と AI、インテル® Optane™ パーシステント・メモリー・テクノロジー、オープンなスタンダードに基づく統合プログラミング・モデルである oneAPI 向けに最適化されます。

今後のブログでは、ソフトウェア、ヘテロジニアス・コンピューティング、システムレベルでインテルが推進しているいくつかのイノベーションについて説明する予定です。これらのイノベーションは、oneAPI と組み合わせることで、HPC と AI の融合を加速します。

法務上の注意書き
インテル® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。
絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。
実際の費用と結果は異なる場合があります。
ここに記載されているすべての情報は、予告なく変更されることがあります。
インテルは、サードパーティーのデータについて管理や監査を行っていません。ほかの情報も参考にして、正確かどうかを評価してください。
© Intel Corporation.  Intel、インテル、Intel ロゴ、Xeon、Intel Optane は、アメリカ合衆国および / またはその他の国における Intel Corporation またはその子会社の商標です。  * その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。

[1] https://aurora.alcf.anl.gov/ (英語)

タイトルとURLをコピーしました