クラウドにおけるハイパフォーマンス・コンピューティングの課題に取り組む

HPCクラウド

この記事は、インテル® IT Peer Network に公開されている「Challenging the Barriers to High Performance Computing in the Cloud」(https://itpeernetwork.intel.com/sc19-aws/) の日本語参考訳です。


クラウド・コンピューティングは、十分なオンプレミス・インフラストラクチャーにアクセスできない多くの研究者、エンジニア、組織が強力な計算機能を利用できるようにすることで、ハイパフォーマンス・コンピューティング (HPC) の民主化を支援します。クラウドの柔軟性とスケーラビリティーは、実質的に無制限の処理能力を提供し、待機時間と長いジョブキューを排除します。最新のサービスとアプリケーションへのアクセスは、人工知能 (AI) を HPC に組込むなど、ワークフローの進化と現代化を容易にします。クラウドで HPC を利用すると、組織は使用する処理能力に対してのみ料金を支払うため、オンプレミス・インフラストラクチャーが古くなったり、十分に活用されないリスクはありません。さらに、クラウドベースのサービスは、結果を迅速に提供し柔軟性を向上することで、制約のないイノベーションを可能にします。Amazon Web Services* (AWS*) を利用することで、組織は機器の構築を待機する代わりに、オンデマンドで HPC クラスターを作成して、ビジネスの情報分析と組織の生産性を促進できます。

このような利点があるにもかかわらず、一部の組織は、コスト、セキュリティー、およびパフォーマンスに関する疑念から、HPC ワークロードをクラウドへ移行することをためらっています。今日のクラウドでは、これらの主張は時代遅れであり、一般に正しくありません。インテル® Xeon® スケーラブル・プロセッサー搭載の AWS* 上のクラウドは、HPC アプリケーションを実行するため最も柔軟でスケーラブルなクラウド・インフラストラクチャーを提供します。また、さまざまなサービスにより、これまで以上に簡単に、迅速、安全、かつ費用対効果の高い方法で開始できます。

コストとコスト管理

多くの組織にとって、クラウドで HPC を実行するコストは大きな懸念事項です。AWS* のサードパーティーが実施した最近の市場調査では、回答者の約半分 (49%) がコストとコスト管理が課題であると述べています。クラウドベースの HPC システムのコストを検討する場合、基本的な TCO 分析では全体が分からないことがよくあります。オンプレミスの HPC リソースに対する需要は、多くの場合処理能力を超えており、システムの過剰使用による生産性の損失は、イノベーションのペースを重視する組織に大きく影響します。HPC ワークロードをクラウドへ移行することで、3 ~ 5 年ごとに定期的にテクノロジーとインフラストラクチャーを更新するサイクルが不要になり、速いペースでイノベーションを継続できます。

AWS* は、クラウド上に HPC クラスターを構築して管理するのに必要なすべてを備えたシンプルで費用対効果の高いサービス統合スイートを提供します。先行投資や長期間の調達サイクルはなく、使用する処理能力のみがコストになります。柔軟なコスト設定モデルにより、時間に依存しない、ステートレス・ワークロードのコストを大幅に軽減します。AWS* は、インテル® ディープラーニング・ブースト (インテル® DL ブースト) を搭載した第 2 世代インテル® Xeon® スケーラブル・プロセッサーなど、常に新しいサービスと機能を提供して、現在のすべての HPC フレームワーク向けに新機能、改善されたパフォーマンス、最適化を実現します。AWS* はまた、AWS* Cost Explorer や AWS* Budgets などのコスト管理ツールと解析ツールを提供しています。さらに、Ronin などの AWS* パートナーは、プラットフォーム上でコスト管理モデルを構築しています。

データ・セキュリティーとデータ管理

クラウド・セキュリティーに関する懸念は新しいものではありません。HPC を多用する多くの業界には厳しいセキュリティー要件があり、クラウドベースの HPC ソリューションに対する一般的な障害となっています。HPC 市場調査の回答者の 43% がデータのセキュリティーと管理に懸念を抱いており、42% はデータのプライバシーも挙げています。オンプレミスの HPC にはセキュリティーとプライバシーの利点があるという意見もありますが、コンプライアンスの維持に必要なセキュリティー・コストを増加させるインフラストラクチャーの老朽化などのリスク管理問題や、オンプレミス・ソリューションでよく必要とされる規制遵守と認証が考慮されていません。セキュリティー・コンプライアンスの複雑さと、共有責任モデルの利点が十分に考慮されていない可能性があります。AWS は、ホスト・オペレーティング・システムと仮想化層から、サービスを運営している施設の物理的なセキュリティーに至るまで、コンポーネントの操作、管理、制御を行うことで顧客が運営上の負担を軽減できるように支援しています。

AWS* においてクラウド・セキュリティーは最優先事項であり、暗号化を保証し、アクセスを管理し、安定したワークロードを確保するためのツールとサービスが用意されています。すべてのデータは、安全性の高い AWS* データセンターに保存され、ネットワーク・アーキテクチャーは最も厳しいリスク要件の組織にも対応できるように構築されています。さらに、顧客はすべてのコンテンツの所有権と制御を維持します。コンテンツを処理、格納、ホストする AWS* サービスを選択したり、保存場所を指定したり、保護状態を選択したり、すべてのアクセスを管理できます。AWS* サービスは共有責任環境で動作し、AWS* 上のアプリケーションを安全に機能させるには顧客と AWS* 双方のアクションが必要です。すべての機関は、クラウド導入の設計、開発、テスト、実稼働の段階を通じて、共有責任モデルを関係者に説明する必要があります。顧客は、クラウド内のセキュリティーに責任を負います。各自のコンテンツ、アプリケーション、システム、ネットワークのセキュリティーを制御し管理します。AWS* は、クラウドセキュリティーを管理して、インフラストラクチャーとサービスを保護し、運用パフォーマンスを維持し、関連する法的および規制要件を満たします。インテル® Xeon® スケーラブル・プロセッサー・ベースの AWS* インスタンスは、ハードウェア、ファームウェア、オペレーティング・システム、アプリケーション、ネットワーク、クラウドを含むすべての計算スタックレイヤーを保護できるように、シリコン上で直接ハードウェアによるセキュリティー機能を提供します。第 2 世代インテル® Xeon® スケーラブル・プロセッサーでは、インテル® スレット・ディテクション・テクノロジー(インテル® TDT) を利用して、ハードウェアによるスレット・ディテクション (脅威の検出) を行うこともできます。

データ転送

クラウドで HPC アプリケーションを実行するには、最初に必要なデータをクラウドへ移動します。しかし、このプロセスは多くの組織にとって障害となる可能性があります。市場調査では、回答者の 41% がクラウドとの間のデータ転送に懸念を示しています。一般的なデータ転送の障害として時間とコストが挙げられます。オンプレミスの HPC インフラストラクチャーにデータを保持するほうが簡単に見えるかもしれませんが、データをクラウドへ移動することで得られる柔軟でアジャイルな HPC の利点のほうがはるかに大きいです。データと HPC をクラウドへ移動すると、貴重な財務および人的リソースが解放されて効率が向上し、復元力のある安全な環境にデータを保存することでビジネスリスクを軽減できます。さらに、クラウドベースの HPC は、顧客が AI、マシンラーニング、ディープラーニングを利用して HPC シミュレーションから利用可能なすべてのデータをマイニングし、必要なシミュレーションの範囲を絞り込んで、低コストで高速な HPC ワークロードの実行を可能にします。新しいクラウドネイティブの HPC アプリケーションは、クラウドベースの柔軟なインフラストラクチャーで効率良く実行するように設計されており、クラウドでのパフォーマンス向上は ROI の向上につながります。

パフォーマンス

ハイパフォーマンス・コンピューティングを使用する組織は、ハイパフォーマンスを期待しています。その多くは、いまだにクラウドがオンプレミスのデータセンターと競合できると信じていません。市場調査の回答者の 35% は、ネットワーク・パフォーマンスとインターコネクト・レイテンシーに関する懸念を示しており、29% はより広範なパフォーマンスの懸念に言及しています。クラウド上の計算ノード間のネットワーク速度は、ハイパフォーマンスを得るには十分ではないという考えは時代遅れです。最近の進歩により、最もリソース負荷の高い HPC アプリケーションを除くすべてのアプリケーションが、クラウドでオンプレミス・インフラストラクチャーと同等またはそれ以上のパフォーマンスを発揮できるまでに、クラウド・ネットワーキング速度とレイテンシーは向上しています。AWS* パフォーマンスは、スケーラビリティー、柔軟性、生のパフォーマンスの点で、ほぼすべての HPC ユースケースのニーズを上回り、通常より優れた ROI を提供します。Amazon EC2* インスタンスのネットワーク・インターフェイスである Elastic Fabric Adapter (EFA) は、独自の OS バイパス・ネットワーキング・メカニズムにより、インスタンス間通信に低レイテンシー、低ジッターチャネルを提供します。これにより、緊密に連携する HPC または分散マシンラーニング・アプリケーションが数千コアにスケーリングし、アプリケーションを高速に実行できます。標準 CFD シミュレーションの場合、EFA を使用すると、EC2* インスタンスの標準ネットワークを使用した場合と比較してスケーリングが 4 倍向上します。

Amazon* HPC クラウドのパフォーマンス

別のパフォーマンス・ベンチマークでは、Amazon EC2* C5n インスタンスを、標準 CFD ユースケースを実行する主要オンプレミス HPC OEM のメインストリーム HPC ノードと比較しました。エンジニアリング・シミュレーション・ソフトウェア・プロバイダーの ANSYS は、「フォーミュラ 1 レースカーの外部流」の ANSYS* Fluent* ベンチマークを公開しています。このケースには、約 1 億 4000 万個のヘックスコア・セルがあり、実現可能な k-ε 乱流モデルに加えて、圧力ベースの結合ソルバーと最小二乗セルベースの疑似非定常ソルバーを使用します。Amazon EC2* C5n インスタンスと Elastic Fabric Adapter を使用して同じベンチマークを実行することで、簡単に AWS* 上でソルバーのパフォーマンス・ベンチマークを測定し、従来の HPC インフラストラクチャーと比較できます。

以下のグラフは、オンプレミス OEM の HPC ノードと C5n.18xlarge + EFA の結果です。ANSYS は、次のように述べています。
「これは Fluent* ベンチマークのパフォーマンス結果の報告に使用された主要メトリックで、24 時間以内に特定のマシンで連続してベンチマークを実行可能な回数を示しています。このメトリックは、1 日の秒数 (86,400 秒) をベンチマークの実行に必要な秒数で割って計算されます。値が大きいほどパフォーマンスが良いことを意味します。」

Amazon* HPC クラウド上のレースカー
図から 2400 コアまでは C5n.18xlarge + EFA の値が高く、その後約 3800 コアまではほぼ同じであることが分かります。

まとめ

HPC は多くの業界にとって不可欠ですが、クラウドベースの HPC についての誤解は、組織がこれらの強力なシステムの利点 (市場投入期間の短縮、新しいビジネス情報分析、かつてないアジリティーとスケーラビリティーなど) を実現する妨げとなる可能性があります。オンプレミス・インフラストラクチャーとクラウドベースの HPC を比較する場合、単純なコア時間あたりのコスト分析だけでなく、それ以外の要因を分析して、ビジネス全体への影響を調べることが重要です。人材の生産性、最先端のテクノロジー、イノベーションの加速などの要因は、新しいデジタル経済において非常に重要で、業界のリーダーとなるか、追従するかの違いとなります。

AWS* クラウドでカスタマイズされた計算クラスターを作成する機能は、小規模な研究チームから大規模組織に至るまで、ほとんどのビジネスケースで費用対効果の高い HPC を可能にします。また、AWS* は、データをプライベートかつ安全に保ち、データの移行と転送を容易にし、一貫した高いパフォーマンスを実現する製品とサービスの統合スイートを提供しています。AWS* 上の HPC に関する詳細は、こちら (英語) を参照してください。

タイトルとURLをコピーしました