インテルの AI ハードウェアとソフトウェアの最適化を活用して Llama を高速化

AI

この記事は、The Parallel Universe Magazine 54 号に掲載されている「Accelerate Llama 2 with Intel AI Hardware and Software Optimizations」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。


parallel_v54_01

大規模言語モデル (LLM) へのアクセスをさらに一般化するため、Meta 社は Llama 2 をリリースしました。モデルをより広く利用できるようにすることで、AI コミュニティー全体で全世界に利益をもたらす取り組みが促進されるでしょう。LLM がテキストの生成、コンテンツの要約と翻訳、質問への応答、会話、および数学の問題を解くことや推論などのより複雑なタスクの実行において実証してきた優れた能力を考えると、LLM は、社会に利益をもたらす最も有望な AI テクノロジーの 1 つであると言えます。LLM には、新たな創造性と洞察力を引き出し、AI コミュニティーを刺激してテクノロジーを進歩させる可能性を秘めています。

Llama 2 は、開発者、研究者、組織が生成 AI を活用したツールとエクスペリエンスを構築するのを支援するように設計されています。Meta 社は、事前トレーニングおよび微調整済みの、70 億 (7B)、130 億 (13B)、および 700 億 (70B) パラメーターの Llama 2 のモデルをリリースしました。Llama 2 で、Meta 社は微調整済みモデル全体に、中核となる 3 つの安全技術 (教師あり安全微調整、ターゲットを絞った安全コンテキストの抽出、人間のフィードバックからの安全強化学習) を実装しました。これにより、Meta 社は安全実績を向上することができました。アクセスを一般化することにより、透過的かつオープンな方法で脆弱性を継続的に特定して軽減できるようになります。

インテルは、コミュニティーが Llama 2 のようなモデルを開発して実行できるように、競争力の高い魅力的なオプションを備えた AI ソリューションのポートフォリオを提供しています。インテルの豊富なハードウェア・ポートフォリオと、最適化されたオープン・ソフトウェアを組み合わせることにより、限定された計算リソースにアクセスするという課題を解決する代替手段が提供されます。この記事では、Habana® Gaudi®2 ディープラーニング・アクセラレーター、第 4 世代インテル® Xeon® スケーラブル・プロセッサー、インテル® Xeon® CPU マックス・シリーズ、およびインテル® データセンター GPU マックス・シリーズを含むインテルの AI ポートフォリオ上での、Llama 2 の 7B および 13B パラメーター・モデルの初期推論パフォーマンスを紹介します。ここで紹介する結果は、現在リリースされているソフトウェアのデフォルト設定のパフォーマンスであり、今後のリリースではさらなるパフォーマンスの向上が期待されます。現在、70B パラメーター・モデルにも取り組んでおり、近々コミュニティーに更新情報を提供する予定です。

Habana® Gaudi®2 ディープラーニング・アクセラレーター

Habana® Gaudi®2 は、ハイパフォーマンス、高効率のトレーニングと推論を提供するように設計されており、Llama や Llama 2 などの大規模言語モデルに特に適しています。LLM のメモリー要求を満たす (つまり、推論パフォーマンスを高速化する) ため、各 Habana® Gaudi®2 アクセラレーターは、96GB のオンチップ HBM2E を搭載しています。Habana® Gaudi®2 は、PyTorch* と DeepSpeed* を統合した、Habana SynapseAI* ソフトウェア・スイートにより、トレーニングと推論の両方をサポートしています。さらに、レイテンシーの影響を受けやすい推論アプリケーションに適した、HPU グラフ (英語) と DeepSpeed* 推論 (英語) のサポートが最近 SynapseAI* に追加されました。2023年第 3 四半期には、FP8 データ型のサポートを含む、さらなるソフトウェアの最適化が Habana® Gaudi®2 に提供される予定です。このアップデートにより、パフォーマンスの大幅な向上、スループットの向上、LLM 実行のレイテンシーの軽減が期待されます。

LLM のパフォーマンスを向上させるには、サーバー内とノード間の両方でネットワークのボトルネックを軽減する、柔軟かつ機敏なスケーラビリティーが必要です。すべての Habana® Gaudi®2 には、24 の 100GB イーサネット・ポートが統合されています。21 のポートをサーバー内の 8 つの Habana® Gaudi®2 の All-to-all 接続専用に、3 つのポートをスケールアウト専用にできます。このネットワーク構成は、サーバー内外の両方でスケールされたパフォーマンスを高速化するのに役立ちます。

Habana® Gaudi®2 は、最近公開された MLPerf* ベンチマーク (英語) に掲載された 384 の Habana® Gaudi®2 アクセラレーター上での 1750 億 (175B) パラメーターの GPT-3* モデルのトレーニングで、大規模言語モデルでの優れたトレーニング・パフォーマンスを実証しました (詳細は、「MLCommons、AI でのインテルの強力な競争優位性を示す最新のベンチマーク結果を公開」を参照してください)。この実証されたパフォーマンスにより、Llama と Llama 2 のトレーニングと推論の両方で、Habana® Gaudi®2 は非常に効果的なソリューションとなります。

次に、単一の Habana® Gaudi®2 デバイスでの、バッチサイズ 1、出力トークン長 256、混合精度 (BF16) を使用したさまざまな入力トークン長の Llama 2 7B および Llama 2 13B モデルの推論パフォーマンスを紹介します。パフォーマンス・メトリックは、(最初のトークンを除く) トークンあたりのレイテンシーです。推論の実行には、optimum-habana テキスト生成スクリプト (英語) を使用しました。Hugging Face の optimum-habana (英語) ライブラリーを使用すると、Habana® Gaudi® アクセラレーター向けにコード変更を最小限に抑えて、これらのモデルをシンプルかつ簡単にデプロイできます。図 1 は、Habana® Gaudi®2 で入力トークン長 128~2K の推論を実行したレイテンシーが、7B モデルでトークンあたり 9.0~12.2 ミリ秒、13B モデルでトークンあたり 15.5~20.4 ミリ秒であることを示しています (ハードウェアとソフトウェアの構成の詳細は、この記事の最後に記載しています)。

タイトルとURLをコピーしました