インテル® ソフトウェア開発ツール最新情報

インテル® oneAPI

この記事は、インテル® デベロッパー・ゾーンに公開されている「Intel® Software News Updates」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。


2024年

AI ツールと最適化フレームワークの最新バージョン 2025.0 リリース

2024年12月19日 | AI フレームワークとツール (英語)

生成 AI の生産性、アクセラレーション、スケーリングを次のレベルへ

インテルは、生成 AI の量子化と推論にフォーカスして AI の効率とスケーリングを推進する、AI ツールと最適化フレームワークのバージョン 2025.0 をリリースしました。PyTorch および TensorFlow エコシステムへの多くの貢献を含むオープン・スタンダードのサポート、最新の P-cores 搭載インテル® Xeon® 6 プロセッサーインテル® Arc™ B シリーズ・グラフィックス、インテルの GPU と内蔵アクセラレーター向けの最適化が追加されています。

詳細とダウンロード (英語)

オープンソースの AI フレームワークとディープラーニング・モデルを採用したインテルの最新世代の AI ツールにより、開発者は既存のコードベースを、下位互換性を失うことなく最新のインテルのテクノロジーをサポートするように容易に拡張できます。

oneAPI を利用した豊富なライブラリーとユーティリティーのセットは、高性能な AI ワークロードを迅速に作成または移行する、信頼性が高く、柔軟性があり、拡張可能で、高度に最適化された基盤を形成します。

オープン AI フレームワークを採用

  • インテル® Xeon® 6 プロセッサー、インテル® Core™ Ultra プロセッサー、インテル® データセンター GPU マックス・シリーズ、およびクライアント GPU のネイティブサポートを含むインテルの PyTorch 最適化 (英語) は、PyTorch 2.5 にアップストリームされています。現世代のプロセッサー向けに最適化され、パフォーマンス向上のため (英語) インテル® oneAPI DPC++/C++ コンパイラーで TorchInductors をコンパイルする機能を備えた PyTorch 2.5 と torch.compile サポートによる PyTorch 推論の最新の CPU パフォーマンス (英語) を利用できます。PyTorch 向けインテル® エクステンションには、大規模言語モデル (LLM) を最適化するカスタマイズされたカーネルサポートが追加され、DeepSpeed 向けインテル® エクステンション (英語) が統合されました。
  • インテルの TensorFlow 最適化 (英語) は、インテル® oneAPI ディープ・ニューラル・ネットワーク・ライブラリー (インテル® oneDNN) (英語) を使用して公式の TensorFlow 機能を拡張し、パフォーマンスとスケーラビリティーを向上します。最新のインテルの CPU および GPU 上で TensorFlow ワークロードのパフォーマンスを最適化して、効率良く実行できます。
  • JAX Python ライブラリー (英語) が AI ツールに統合され、自動微分による効率的で柔軟な数値計算が可能になりました。これにより、JAX の高性能なジャストインタイム・コンパイルを活用し、マシンラーニング、科学計算、最適化タスク向けの機能が強化されます。PJRT (英語) プラグインメカニズムをベースにインテルにより最適化された PyPI パッケージである OpenXLA (英語) 向けインテル® エクステンションを使用して、インテル® データセンター GPU 上で JAX (英語) モデルをシームレスに実行します。

モデルサイズとパフォーマンスの最適化

  • インテル® ニューラル・コンプレッサー (英語) は、モデルを最適化してモデルサイズを小さくし、CPU と GPU 上でディープラーニング (DL) の推論を高速化します。
  • 新機能には、LLM の重みのみの量子化を行う Transformer ライクな量子化 API があり、インテルのハードウェアで量子化と推論のワンストップ・エクスペリエンスを提供します。また、AutoRound アルゴリズムを使用した LLaVA、Phi-3-vision、Qwen-VL などのビジュアル言語モデル (VLM) の INT4 量子化もあります。
  • インテル® ニューラル・コンプレッサーのその他の改善点には、Transformer ライクな API での PyTorch 推論用の AWQ 形式 INT4 モデルの読み込みと変換のサポート、INT4 モデルの AutoRound 形式のエクスポートの有効化、PyTorch 2 エクスポート (PT2E) のチャネルごとの INT8 トレーニング後量子化のサポートなどがあります。

生成 AI 開発者の生産性を高める

AI フレームワークとツール (英語)
AI ツールセレクター (英語)


oneAPI 誕生から 5 周年を記念するインテル® ソフトウェア開発ツールのバージョン 2025.0 がリリース

2024年11月17日 | インテル® ソフトウェア開発ツール

インテルは、oneAPI プログラミング・モデルの誕生から 5 周年を記念して、パフォーマンスの最適化とオープン・スタンダードのカバレッジが拡張された、マルチアーキテクチャー、ハードウェアに依存しないソフトウェア開発とデプロイ、エッジからクラウドまでの最新のイノベーションをサポートする、oneAPI を利用した開発者ツールの最新バージョン 2025.0 をリリースしました。

3 つの特長

  • インテル® プラットフォームでさらなるパフォーマンスを引き出すインテル® oneDNN (英語)、インテルにより最適化された AI フレームワーク、インテル® AMX1 を搭載したインテル® Xeon® 6 プロセッサー (P-cores) で最大 3 倍の生成 AI パフォーマンスを実現します。MRDIMM2インテル® oneMKL により HPCG パフォーマンスを最大 2.5 倍向上します。インテル® Core™ Ultra プロセッサー (シリーズ 2) の性能を最大限に発揮するように最適化されたツールにを利用して、PC 上で LLM 開発を含む ハイパフォーマンス AI を開発できます。インテル® クリプトグラフィー・プリミティブ・ライブラリー (英語) によりセキュリティーと暗号化を向上できます。
  • 業界標準ツールへのアクセスの拡大 – CPU および GPU での PyTorch* 2.5 のネイティブサポートなど、業界をリードする AI フレームワークと、多くのインテルの最適化を含むパフォーマンス・ライブラリーを使用して、既存の開発ワークフローを活用できます。インテルの AI ツール (英語) を使用すると、CPU、GPU、AI アクセラレーター上で Llama* 3.2、Qwen2、Phi-3 などの最新の LLM から最適なパフォーマンスを引き出すことができます。また、ツールキット・セレクター (英語) を使用してフルキットまたは適切なサイズのサブバンドルをインストールすることで、ソフトウェアのセットアップを効率化できます。
  • ハードウェアの選択肢が拡大 – 一般的な AI、HPC、レンダリング・アプリケーションで使用される 100 以上の API を自動移行するインテル® DPC++ 互換性ツールにより、CUDA* から SYCL* への迅速な移行など、マルチベンダー、マルチアーキテクチャーのサポートが強化されています。インテル® ディストリビューションの Python* により、CPU および GPU でドロップインの、ネイティブに近い数値計算パフォーマンスを実現できます。インテル® oneDPL によりアルゴリズムの GPU カーネルを 4 倍高速化できます。Triton、JAX、OpenXLA などのクロスハードウェア AI アクセラレーション・ライブラリーにより、将来のシステムの柔軟性を獲得し、ロックインを防止します。

新機能

以下は、コンポーネント・レベルの詳細です。

コンパイラー

  • インテル oneAPI DPC++/C++ コンパイラーは、インテル® Xeon® 6 プロセッサーおよびインテル® Core™ Ultra プロセッサー向けにカスタマイズされた最適化が追加され、新しい SYCL* バインドレス・テクスチャー・サポートによりインテル® GPU の動的実行と柔軟なプログラミングを可能にし、デバイスコードの問題を検出してトラブルシューティングする新しい LLVM サニタイザーで開発を効率化し、 OpenMP* 標準 5.x および 6.0 への準拠を拡張し、OpenMP* オフロードの詳細を含むよりユーザーフレンドリーな最適化レポートが追加されています。
  • インテル® Fortran コンパイラーは、クリーンな出力のための AT 編集記述子、OpenMP* 6.0 の新しい IF 節による条件付き TEAMS 構造の実行、およびアプリケーションの標準への準拠を正確に制御する Co-Array の配列と「standard-semantics」オプションのサポートなど、Fortran 2023 標準機能を含むいくつかの機能強化が追加されています。『Fortran デベロッパー・ガイドおよびリファレンス』のサンプルコードが更新され、Fortran 2018 および 2023 の Fortran 言語機能のサポートが追加されています。

パフォーマンス・ライブラリー

アナライザーとデバッガ―

  • インテル® DPC++ 互換性ツールは、一般的な AI、HPC、レンダリング・アプリケーションで使用されるより多くの API を自動移行することで、CUDA* コードと CMake ビルドスクリプトを SYCL* に移行する際の時間と労力を軽減します。移行したコードは、SYCLcompat で簡単に理解でき、CodePin を使用して簡単にデバッグでき、NVIDIA* GPU で実行できます。
  • インテル® VTune™ プロファイラーは、P-cores 搭載インテル® Xeon® 6 プロセッサーとインテル® Core™ Ultra プロセッサー (シリーズ 2) をサポートしました。また、Python* 3.11 のプロファイル・サポートが追加され、Python* のプロファイルを関心領域に集中させ、インテル® ITT API (英語) を使用したパフォーマンス・データ収集の制御により、生産性を向上させます。
  • インテル® Advisor は、開発者が最新のインテルのプラットフォームでボトルネックを特定し、コードを最適化し、最高のパフォーマンスを実現できるようにします。柔軟なカーネルマッチングと XCG アプリの統合により、適応性の高いカーネル・マッチング・メカニズムが導入されており、特定の最適化目標に関連するコード領域を特定して分析することが可能です。
  • インテル® ディストリビューションの GDB* (英語) は、最新の状態を維持し、効果的なアプリケーションのデバッグをサポートする最新の機能拡張に合わせて、GDB 15 をベースとするように変更されました。また、Windows* でインテル® Core™ Ultra プロセッサー (シリーズ 2) をサポートしました。デバッガー・パフォーマンスの向上とユーザー・インターフェイスの改良により、コマンドラインと Microsoft* Visual Studio* および Visual Studio* Code 使用時の両方で開発者のエクスペリエンスを向上します。

AI および ML ツール、フレームワーク、および高速化された Python*

  • インテル® ディストリビューションの Python* は、CPU と GPU でドロップインの、ネイティブに近い数値計算パフォーマンスを実現します。Python 向けデータ・パラレル・エクステンション (dpnp) とデータ・パラレル・コントロール (dpctl) は、互換性を拡張し、ランタイムに NumPy* 2.0 をサポートして、オフロードされた操作の非同期実行を提供します。
  • インテルの AI ツール (英語) の最新リリースでは、Llama* 3.2、Qwen2、Phi-3 ファミリーを含む生成 AI 基礎モデルの現在および将来のリリースが、インテルの CPU、GPU、AI アクセラレーターで最適に動作するようにします。
  • Triton (英語) (ニューラル・ネットワーク向けのオープンソースの GPU プログラミング) がインテル® データセンター GPU マックス・シリーズとインテル® Core™ Ultra プロセッサー (シリーズ 2) 向けに完全に最適化され、ストック PyTorch* のアップストリームで利用できるようになりました。開発者はインテルの GPU でピーク・パフォーマンスとカーネル効率を実現できます。
  • PyTorch* 2.5 のネイティブサポート (英語) は、インテルのデータセンター GPU、インテル® Core™ Ultra プロセッサー、インテルのクライアント GPU で利用できます。インテル® Arc™ グラフィックスとインテル® Iris® Xe グラフィックス GPU のサポートにより、Windows* で PyTorch* を使用した開発が可能です。
  • LF AI & Data Foundation のオープン・プラットフォーム・プロジェクトである OPEA (英語) を採用することにより、エンタープライズ生成 AI の導入を簡素化し、強化された、信頼できるソリューションの運用までの時間を短縮します。現在リリース 1.0 の OPEA は、AMD、BONC、ByteDance、MongoDB、Rivos などの最新のパートナーを含む 40 社を超えるパートナーとともに躍進を遂げています。
  • PJRT (英語) プラグイン・メカニズム・ベースのインテルにより最適化された PyPI パッケージである OpenXLA* (英語) 向けインテル® エクステンションにより、インテル® データセンター GPU マックス・シリーズとインテル® データセンター GPU フレックス・シリーズで JAX (英語) モデルをシームレスに実行します。

脚注

1 intel.com/processorclaims の [9A2] を参照: インテル® Xeon® 6 プロセッサー。結果は異なることがあります。

2 intel.com/processorclaims の [9H10] を参照: インテル® Xeon® 6 プロセッサー。結果は異なることがあります。

3 インテル® oneDPL 製品ページ (英語) を参照。


oneAPI 誕生から 5 年

2024年11月17日 | oneAPI とは? (英語)、インテル® oneAPI デベロッパー・ページ (英語)

アクセラレーター・アーキテクチャー向けのオープンで標準ベースのマルチアーキテクチャー・プログラミング・イニシアチブの誕生から 5 周年

Supercomputing 2019 で発表された oneAPI イニシアチブは、グローバルな開発者エコシステムのヘテロジニアス・プログラミングへの取り組み方に恒久的な変化をもたらしただけでなく、あらゆるベンダー・アーキテクチャー上で実行可能な高性能ソフトウェアを構築、最適化、デプロイする基盤となっています。

多数の貢献者、430 万以上のインストール、680 万人の開発者がインテルのソフトウェアと AI ツール (最新バージョン 2025.0 の詳細はこちら) を介して oneAPI を使用しており、oneAPI は間違いなく主要なプログラミング標準の 1 つです。Unified Acceleration (UXL) Foundation の使命は、ハイパフォーマンスのクロスプラットフォーム・アプリケーションの開発を簡素化するオープンスタンダードのアクセラレーター・プログラミング・モデルを提供することです。これは、oneAPI を主要コンポーネントとして、イノベーションを推進するための重要な一歩です。

これらすべてをわずか 5 年で実現しました。次の 5 年間で何が起こるか想像してみてください。

oneAPI をまだ試していない場合は、概要を確認し、最新バージョン 2025.0 のツールをダウンロードしてお試しください。

oneAPI 5 周年を祝う – エコシステムの利用者の声

oneAPI 5 周年は、異なるハードウェア上でアプリケーションの実行を可能にするエコシステムの技術的な深さと、HPC、AI、API 標準、ポータブルなアプリケーションを中心としたコミュニティー形成の成功の両方を認識する良い機会です。

– テネシー大学ノックスビル校 計算数学学部長 Hartwig Anzt 博士

oneAPIは、アーキテクチャーを超えたシームレスな開発を可能にすることで、ヘテロジニアス・コンピューティングへのアプローチ方法に革命をもたらしました。そのオープンで統一されたプログラミング・モデルは、AI から HPC までの分野におけるイノベーションを加速し、研究者と開発者の新たな可能性を解き放ちました。oneAPI 5 周年おめでとうございます。

– イスラエル工科大学コンピューター・サイエンス学部助教授 Gal Oren 博士

インテルの oneAPI ソフトウェア・スタックへのコミットメントは、開発者重視のオープン・スタンダードへのコミットメントの証です。oneAPI は 5 周年を迎え、CPU と GPU 向けに OpenMP* と SYCL* の包括的で高性能な実装を提供し、インテル® プロセッサーを最大限に活用するライブラリーとツールのエコシステムによって強化されています。

– ブリストル大学 先進 HPC 研究グループ長兼上級講師 Tom Deakin 博士

oneAPI が 5 周年を迎えたことをお祝いいたします。ExaHyPE において、oneAPI は双曲方程式系の数値計算カーネルの実装に大きく貢献し、SYCL* がこれらのバリエーションを探索する理想的な抽象化と不可知論を提供することで、性能に大きな違いをもたらしました。この多用途性により、私たちのチームは、インテルのエンジニアとともに、カーネルの 3 つの異なる設計パラダイムを発表することができました。

– ダラム大学 データサイエンス研究所所長 Tobias Weinzierl 博士

oneAPI、5 周年おめでとうございます! 私たちは、2019年のプライベート・ベータ・プログラム以来のパートナーです。現在、材料科学のシミュレーションやバイオインフォマティクスのデータ・アナリティクス向けの電力効率の高いソリューションを、さまざまなアクセラレーターを使って模索しています。そのためには、oneAPI のコンポーネント、さまざまな GPU や FPGA 用のバックエンドを備えたコンパイラー、oneMKL、インテル® VTune™ プロファイラーやインテル® Advisor などのパフォーマンス・ツールが不可欠です。

– ベルリン・コンラート・ツーゼ情報技術センター スーパーコンピューティング部門長 Thomas Steinke 博士

GROMACS は、性能と移植性に優れたバックエンドとして SYCL* を早くから採用し、マルチベンダーの GPU 上で実行するために活用してきました。長年にわたり、SYCL* 標準の大幅な改善とそのコミュニティーの成長を見てきました。これは、イノベーションとコラボレーションを推進するため、計算研究におけるオープン・スタンダードの重要性を強調しています。ソフトウェア・パフォーマンスの向上とプログラマーの生産性向上を可能にする、SYCL* の継続的な開発に期待しています。

– KTH王立工科大学応用物理学部研究員 Andrey Alekseenko 氏

私たちは、インテル® oneAPIベースツールキットを使用して、超音波診断ソリューションで広く使用されている、重い処理を必要とするコードを SYCL* に移行することに成功しました。これは、ヘテロジニアス・コンピューティングのための、単一でオープンな標準ベースのプログラミング・モデルへの大きな前進です。移行されたコードは、異なる GPU プラットフォーム上で効率良く実行され、競争力のある性能を達成しています。

– GE HealthCare シニア・リード・ソフトウェア・アーキテクト Arcady Kempinsky 氏

インテル® oneAPIベースツールキットを使用して、GE HealthCare の CT ポートフォリオの多くで利用可能な、独自のディープラーニング画像再構成アルゴリズムである TrueFidelity DL を実装することに成功しました。オープンソースの SYCL* コンパイラーは、複数の NVIDIA* GPU デバイスでほぼ同等の AI/DL 推論パフォーマンスを提供します。GE Healthcare の OpenCL* ソフトウェアの経験に基づくと、コードの移植性は、ソフトウェア開発への投資を保護し、異なるプラットフォームやベンダー間でソフトウェアを再利用するために極めて重要です。

– GE グローバル & 戦略アライアンス担当シニア・ディレクター Mark Valkenburgh 氏

関連情報:


インテル® Tiber™ AI クラウドでオブジェクト・ストレージの一般提供を開始

2024年10月17日 | インテル® Tiber™ AI クラウド

インテルは、インテル® Tiber™ AI クラウドで新しいオブジェクト・ストレージ・サービスの提供開始を発表しました。このサービスは、最新のデータおよび AI ワークロードの厳しい要件を満たす、スケーラブルで耐久性があり、コスト効率に優れたデータストレージを提供します。

このサービスは、S3 API (AWS* の Simple Storage Service) と互換性のある強力なオープンソース MinIO プラットフォーム上に構築されており、既存のアプリケーションやツールとの統合が容易です。

詳細 (英語)

次のような利点があります。

  • 拡張性と柔軟性 – ギガバイトでもペタバイトでも、膨大なデータストレージのニーズに対応できるため、ビジネスに合わせてストレージ・インフラストラクチャーを拡張できます。
  • パフォーマンス – 高速データアクセスと取得に最適化されているため、AI/ML ワークロードを含め、データに常にアクセスでき、迅速に処理できます。
  • コスト効率の良いストレージ – あらゆる規模の企業が、多額の費用をかけずに膨大な量のデータを保存できます。
  • 堅牢なセキュリティ – 保存時と転送時の暗号化と、堅牢なアクセス制御が含まれています。
  • 統合が容易 – バックアップとリカバリー、データアーカイブ、データレイクの使用など、既存のワークフローやアプリケーションとシームレスに統合できるように構築されています。
  • 強化されたデータ管理 – バージョン管理、ライフサイクル・ポリシー、メタデータ管理などの機能を使用して、データを効率良く管理できます。

Inflection AI がインテル® Tiber™ AI クラウド上のインテル® Gaudi® 3 AI プロセッサーで動作するエンタープライズ AI を発表

2024年10月7日 | Inflection AI とインテルの協業 (英語)、インテル® Tiber™ AI クラウド

新たな協業により、企業に大きな成果をもたらす AI 搭載のターンキー・プラットフォームを提供

Inflection AI とインテルは、大企業向けに AI の導入と効果を加速させる協業を発表しました。業界初のエンタープライズ・グレードの AI プラットフォームである Inflection 3.0 は、インテル® Tiber™ AI クラウド上のインテル® Gaudi® 3 AI アクセラレーターで動作し、複雑で大規模な導入に必要な制御、カスタマイズ、拡張性を備えた、共感的で会話的な、従業員に優しい AI 機能を提供します。

詳細

「Inflection AI とインテルは協力して、エンタープライズのお客様に AI に対する究極の制御を提供します。Inflection AI をインテル® Tiber™ AI クラウドとインテル® Gaudi® 3 AI アクセラレーターと統合することで、ソフトウェア、価格、性能、スケーラビリティーのオープンなエコシステムを提供します。これにより、企業における AI 導入の重要な障壁を解消し、お客様が必要とする安全で、目的に特化した、従業員固有の、企業文化に応じた AI ツールを実現します。」

インテル® Tiber™ クラウド・サービス担当 CVP Markus Flierl

これが重要な理由

AI プラットフォームの構築は複雑であり、広範なインフラストラクチャーに加えて、モデルの開発、トレーニング、ファインチューニング、さらには多数のエンジニア、データ・サイエンティスト、アプリケーション開発者を必要とします。

Inflection 3.0 は、企業データ、ポリシー、文化に基づいてトレーニングされた仮想 AI により従業員を強化する完全な AI プラットフォームを、企業のお客様に提供します。インテル® Tiber™ AI クラウド上のインテル® Gaudi® 3 AI アクセラレーターで動作し、優れたパフォーマンス、堅牢なソフトウェア、効率性を提供することで、業界をリードするパフォーマンス、スピード、スケーラビリティーを費用対効果の高い方法で実現し、大きな成果をもたらします。


インテルが次世代の AI ソリューションを実現するインテル® Xeon® 6 プロセッサーとインテル® Gaudi® 3 AI アクセラレーターを発表

2024年9月24日 | インテル® Xeon® 6 プロセッサー (P-core採用)インテル® Gaudi® 3 AI アクセラレーター

インテルは本日、Performance-cores (P-cores) を搭載したインテル® Xeon® 6 プロセッサーとインテル® Gaudi® 3 AI アクセラレーターを発表しました。これらの製品により、最適な電力効率 (パフォーマンス/ワット) とより低い総保有コスト (TCO) を特徴とする、強力な AI システムの提供を実現します。

インテルの AI に特化したデータセンター向け製品ポートフォリオに次の 2 つの新製品が加わりました。

  • インテル® Xeon® 6 プロセッサー (P-core採用): 計算負荷の高いワークロードを効率良く処理するように設計されたインテル® Xeon® 6 プロセッサーは、前世代製品と比較して 2 倍のパフォーマンスを実現します1。コア数の増加、メモリー帯域幅の倍増、すべてのコアに組み込まれた AI アクセラレーション機能を提供します。

  • インテル® Gaudi® 3 AI アクセラレーター: 大規模生成 AI 向けに最適化されており、64 個の Tensor プロセッサー・コア (TPC) と 8 個の行列乗算エンジン (MME) を実装し、ディープ・ニューラル・ネットワーク (DNN) の計算処理を加速します。トレーニングと推論用に 128GB の HBM2e メモリーを備え、スケーラブルなネットワーク処理を可能にする 24 ポートの 200Gb イーサネットを搭載しており、Llama 2 70B 推論で NVIDIA* H100 と比較して最大 20% 高いスループットと、2 倍の価格性能比を実現します2

詳細

1 intel.com/processorclaims (英語) のインテル® Xeon® 6 プロセッサーを参照してください。結果はシステム構成によって異なります。
2 intel.com/processorclaims (英語) のインテル® Gaudi® 3 AI アクセラレーターを参照してください。結果はシステム構成によって異なります。


Seekr がインテル® Tiber™ デベロッパー・クラウド上のセルフサービス AI エンタープライズ・プラットフォームを発表

2024年9月4日 | SeekrFlow (英語)、インテル® Tiber™ デベロッパー・クラウド

インテル® Tiber™ デベロッパー・クラウド上で動作する Seekr で、優れたコスト・パフォーマンスの信頼できる AI を導入

Seekr は本日、インテル® Tiber™ デベロッパー・クラウド上の高性能でコスト効率の高いインテル® Gaudi® AI アクセラレーター上で動作する、エンタープライズ対応プラットフォームの SeekrFlow を発表しました。

SeekrFlow は、信頼できるエンタープライズ AI アプリケーションのトレーニング、検証、デプロイ、スケーリングを行う完全なエンドツーエンド・プラットフォームであり、AI 導入のコストと複雑さ、そしてハルシネーションを軽減します。

詳細 (英語)

これが重要な理由

一言で言えば、顧客の利点です。

インテルのクラウドを使用して大規模な AI の開発とデプロイを行うと同時に、SeekrFlow のパワーを活用して信頼できる AI を実行し、これらすべてを 1 カ所で行うことで、顧客は優れたコスト・パフォーマンス、インテルの CPU、GPU、AI アクセラレーターへのアクセス、オープン AI ソフトウェア・スタックによる柔軟性が得られます。


次世代のインテル® Core™ Ultra プロセッサー搭載の AI PC で AI を高速化

2024年9月3日 | AI 開発のジャンプスタート (英語)、AI PC 向け開発 (英語)

本日、インテルは次世代のインテル® Core™ Ultra プロセッサー (開発コード名 Lunar Lake) を発表し、最新の AI PC における効率、コンピューティング、AI パフォーマンスの飛躍的進歩を明らかにしました。

ISV、開発者、AI エンジニア、データ・サイエンティストは、クライアント・プラットフォームの AI 性能を業務に活用できます。AI PC は、モデル、アプリケーション、ソリューションの開発と最適化に最適です。

  • オープンソースの基礎モデル、PyTorch* や TensorFlow* などの最適化されたフレームワーク、インテル® OpenVINO™ ツールキットを使用して、AI のトレーニングと推論を簡素化および高速化します。
  • インテル® ソフトウェア開発ツールを活用して、インテル® AVX-512 やインテル® AI ブーストなどの AI PC の最先端機能を活用し、パフォーマンスと開発の生産性を向上させます。
  • oneAPI (英語) ヘテロジニアス・プログラミングを使用して既存の CPU/GPU コードを移植し、最大 40% の消費電力を削減しながら高速に実行できるように最適化します。

2024年末までに、統合ソフトウェア開発キット (SDK) を備えたインテル® Core™ Ultra プロセッサー・ベースのプラットフォームもインテル® Tiber™ デベロッパー・クラウドで利用できるようになる予定です。

詳細 (英語)


あらゆるところに AI: インテル® ソフトウェア開発ツール & AI ツール 2024.2 リリース

2024年8月9日 | インテル® ソフトウェア開発ツールインテル® Tiber™ デベロッパー・クラウド

高性能で量産可能な AI への高速パス

インテルの oneAPI および oneAPI を採用した AI ツールの最新リリースは、ソリューションまでの時間を短縮し、ハードウェアの選択肢を増やし、安定性を向上することで、開発者が高性能な AI (および HPC) アプリケーションをより簡単に提供できるようにチューニングされています。実稼働用のクラウド環境での AI の構築とデプロイについては、インテル® Tiber™ デベロッパー・クラウドの新しいハードウェアとサービスをご確認ください。

3 つの特長

  • より高速で応答性の高い AIoneDNN (英語)、インテルにより最適化された AI フレームワーク、インテル® AMX1 を搭載した、今後発売されるインテル® Xeon® 6 プロセッサー (P-cores) で最大 2 倍の生成 AI パフォーマンスを実現し、アナリティクスやメディアなどのワークロードでは (インテル® Xeon® 6 プロセッサーの E-cores を使用して) 最大 1.6 倍のパフォーマンスを実現します2。将来に対応した比類のない AI 計算能力を備えた今後発売されるクライアント・プロセッサー (開発コード名 Lunar Lake) と、前世代の 3.5 倍の AI スループット (英語) を含む3、AI PC 上で LLM 推論スループットとスケーラビリティーを向上します。ツールは、Llama* 3.1 や Phi-3 などの 500 以上のモデル (英語) をサポートしています。インテル® Tiber™ デベロッパー・クラウドにより、コスト効率に優れたマネージド・インフラストラクチャー上に実稼働用 AI をデプロイして拡張できます。
  • 選択肢と制御の拡大 – 業界標準の AI フレームワークに継続的に最適化をアップストリームすることで、インテルのすべての CPU と GPU で AI および HPC ワークロードのパフォーマンスを最大化します。ユビキタス・ハードウェアへのデプロイを容易にするため、最小限のコーディングでインテル® GPU 上で PyTorch* 2.4 (英語) を実行およびデプロイできます。oneMKL、oneTBB、oneDPL の最適化とインテル® oneAPI DPC++/C++ コンパイラーの強化された SYCL* Graph 機能により、アプリケーションの効率と制御が向上します。このリリースでは、AI、テクニカル、エンタープライズ、グラフィックスの計算ワークロードを高速化するため、インテル® Xeon® 6 プロセッサー (E-cores と今後の P-cores) および今後発売されるプロセッサー (開発コード名 Lunar Lake) の幅広いツールがサポートされています。
  • 簡素化されたコード最適化 – インテル® VTune™ プロファイラーのプラットフォームを考慮した最適化、幅広いフレームワーク、新しいハードウェア (開発コード名 Grand Ridge) プロセッサーにより、AI トレーニングと推論のパフォーマンスが向上します。インテル® DPC++ 互換性ツールを使用して 100 以上の CUDA* API を自動的に移行し、CodePin インストルメンテーションにより CUDA* から SYCL へのコード移行における不整合を正確に特定することで、CUDA* コードから SYCL* へ容易に移行できます。

新機能

以下は、コンポーネント・レベルの詳細です。基本ツールは、インテル® oneAPI ベース・ツールキットインテル® HPC ツールキットにバンドルされています。AI ツールについては、セレクターツール (英語) で必要なものだけを入手できます。

コンパイラー

  • インテル® oneAPI DPC++/C++ コンパイラーは、SYCL* Graph 機能を強化し、一時停止/再開をサポートして、より優れた制御とパフォーマンス・チューニングを実現します。デフォルトのコンテキストが有効な Windows* で SYCL* パフォーマンスを向上します。また、カーネル・コンパイラーの最新リリースで SPIR-V* と OpenCL* クエリーをサポートして、計算カーネルの柔軟性と最適化を強化します。
  • インテル® Fortran コンパイラーは、整数オーバーフロー制御オプション (-fstrict-overflow、Qstrict-overflow[-]、および -fnostrict-overflow) を追加して、正しく機能することを確実にします。最新の OpenMP* 標準 5.x および 6.0 への準拠を拡張し、スレッド使用量の制御とループの最適化を強化します。また、メモリー管理、パフォーマンス、効率性を向上する OpenMP* ランタイム・ライブラリー拡張も追加しています。

ライブラリー

  • インテル® ディストリビューションの Python* では、生産性向上のため、Data Parallel Control Library にソートおよび合計関数が追加されました。パフォーマンス向上のため、NumPy* 向け Data Parallel Extension に新たな累積関数と改良された線形代数関数が提供されています。
  • インテル® oneAPI ディープ・ニューラル・ネットワーク・ライブラリー (インテル® oneDNN) (英語) は、インテルの AI が強化されたクライアント・プロセッサーおよびサーバー・プラットフォームでパフォーマンスを向上するプロダクション品質の最適化を提供し、matmul での int8 および int4 重み展開のサポートにより AI ワークロードの効率を高め、LLM を高速化してより迅速に洞察と結果をもたらします。
  • インテル® oneAPI マス・カーネル・ライブラリー (インテル® oneMKL) は、インテル® データセンター GPU マックス・シリーズ上で 実数および複素数の 2D FFT と 3D FFT のパフォーマンスを強化します。
  • インテル® oneAPI データ・アナリティクス・ライブラリー (インテル® oneDAL) は、DPC++ スパース gemm プリミティブ、DPC++ スパース gemy プリミティブ、スパース logloss 関数プリミティブをサポートし、アルゴリズム全体でスパース関数を拡張しています。
  • インテル® oneAPI DPC++ ライブラリー (インテル® oneDPL) (英語) は、開発者がマルチアーキテクチャー・デバイス向けの並列プログラムを記述できるようにし、インテルおよび他のベンダーの GPU で既存のアルゴリズムを改善する、新しい C++ 標準テンプレート・ライブラリーの inclusive_scan アルゴリズム拡張を追加しています。
  • インテル® oneAPI コレクティブ・コミュニケーション・ライブラリー (インテル® oneCCL) (英語) は、メモリーや I/O などのシステムリソースの使用率を向上する複数の機能拡張を導入し、さらに優れたパフォーマンスを実現します。
  • インテル® oneAPI スレッディング・ビルディング・ブロック (インテル® oneTBB) は、スレッドとマルチスレッドの同期を最適化し、第 5 世代インテル® Xeon® プロセッサーでの起動レイテンシーを短縮し、Apple* Mac* を含む ARM* CPU で OpenVINO™ ツールキットのパフォーマンスを最大 4 倍に高速化します。
  • インテル® インテグレーテッド・パフォーマンス・プリミティブ (インテル® IPP) は、zlip 1.3.1 の最適化パッチを追加して、データ圧縮タスクの圧縮率とスループットを向上し、インテル® GPU 上でインテル® AVX-512 VNNI を使用して一部の色変換関数の高速画像処理を実現します。
  • インテル® IPP Cryptography (英語) は、NIST FIPS 140-3 準拠を含む政府機関と民間セクター全体のセキュリティーを拡張し、単一バッファー実装向けに最適化された LMS ポスト量子暗号アルゴリズムでデータ保護を強化します。また、簡素化された新しいコードサンプルを使用してインテル® Xeon® プロセッサーとインテル® Core™ Ultra プロセッサーの AES-GCM パフォーマンスを最適化し、Linux* での Clang 16.0 コンパイラー・サポートにより開発を効率化します。
  • インテル® MPI ライブラリーは、開発者が特定のスレッドを個々の NIC に固定できるようにすることで、複数のネットワーク・インターフェイス・カードを搭載したマシンでアプリケーション・パフォーマンスを向上します。また、第 5 世代インテル® Xeon® プロセッサー向けに、GPU 対応ブロードキャスト、RMA ピアツーピア・デバイス間通信、ノード内スレッド分割、Infiniband* チューニングの最適化を追加しています。

AI および ML ツールとフレームワーク

  • PyTorch* 2.4 では、インテル® データセンター GPU マックス・シリーズの初期サポート (英語) が提供され、インテル® GPU と SYCL* ソフトウェア・スタックが公式の PyTorch* スタックに追加され、AI ワークロードのさらなる高速化に役立ちます。
  • PyTorch* 向けインテル® エクステンション (英語) は、Eager モードで FP16 最適化を使用して、Bert_Large、Stable Diffusion の CPU パフォーマンスのチューニングを改善します。一般的な LLM モデル (英語) は、重みのみの量子化 (Weight-Only Auantization、WOQ) (英語) を使用してインテル® GPU 向けに最適化されており、精度を低下させることなくメモリーアクセスを減らし、パフォーマンスを向上します。
  • インテル® ニューラル・プロセッサー (英語) は、15 以上の一般的な LLM 量子化レシピ (英語) で SmoothQuant および WOQ アルゴリズムを使用して、INT8 および INT4 LLM モデルのパフォーマンスを向上します。WOQ のインプレース・モードを利用して、量子化プロセスの実行時にメモリー・フットプリントを削減します。LLM 推論用の低ビット量子化法である AutoRound を使用してモデルの精度を向上させ、より少ない手順で丸め値と重みの最小/最大値を微調整します。PyTorch* LLM 用の新しい Wanda および DSNOT プルーニング・アルゴリズムは、AI 推論中のパフォーマンスを向上するのに役立ち、SNIP アルゴリズムは、マルチカードまたはマルチノード (CPU) でのモデルのスケーリングを可能にします。

解析、デバッグ、コード移行ツール

  • インテル® VTune™ プロファイラーは、最適ではないインテル® oneCCL 通信に関する詳細なデータを提供し、.NET8 をサポートし、今後発売されるプロセッサー (開発コード名 Grand Ridge) をサポートします。テクニカルプレビュー機能により、開発者はソフトウェア・パフォーマンス解析における潜在的なボトルネックを高レベルで把握してから、トップダウンのマイクロアーキテクチャー・メトリックを調査してより深い分析を行うことができます。
  • インテル® DPC++ 互換性ツールは、オプションで有効になる SYCL* イメージ API 拡張への移行により、マルチベンダー GPU 上のビジュアル AI アプリケーションと画像処理アプリケーションを高速化します。カーネル実行ログを自動的に比較し、移行された SYCL* コードの違いを報告します。よく使用される 126 個の CUDA* API は自動的に移行できます。
  • インテル® ディストリビューションの GDB* (英語) は、Windows* マシンでインテル® Core™ Ultra プロセッサーをサポートし、変数を監視および解析して VS Code でより迅速かつ効率的にアプリケーションの安定性を強化する Land Variable Watch Window を追加します。また、インテル® Control-flow Enforcement Technology (CET) を拡張してアプリケーションのセキュリティーを強化します。

ブログ (英語) と各ツールのリリースノート (英語) では、開発者の視点から新機能についてさらに詳しく説明しています。

インテル® Tiber™ デベロッパー・クラウドでの大規模な AI ソリューションのビルドとデプロイ

人気の高い基本モデルと最適化されたツールおよびフレームワークを含む、oneAPI をベースに構築されたオープン・ソフトウェア・スタックを使用して、最新のインテル® アーキテクチャーで AI モデル、アプリケーション、および実稼働用ワークロードを開発およびデプロイできます。

新しいハードウェアとサービスにアクセス可能

  • インテル® データセンター GPU マックス・シリーズ搭載の仮想マシン
  • インテル® Gaudi® 2 AI アクセラレーターと生成 AI Jupyter* Notebook
  • インテル® Kubernetes Service と K8s API によるコンテナーのデプロイメント
  • 出荷前のインテル® Xeon® 6 プロセッサーを搭載したプレビュー環境

インテル® Gaudi® 2 AI アクセラレーターが AI コンピュートと生成 AI の低コストな代替手段を実現

2024年6月12日 | インテル® Gaudi® 2 AI アクセラレーターインテル® Tiber™ デベロッパー・クラウド

本日、MLCommons は、業界の AI パフォーマンス・ベンチマークである「MLPerf Training v4.0」の結果を発表しました。インテルの結果は、インテル® Gaudi® 2 AI アクセラレーターが企業や顧客に提供する選択肢を示しています。

インテルは、インテル® Tiber™ デベロッパー・クラウドでトレーニングした大規模なインテル® Gaudi® 2 システム (1,024 基のインテル® Gaudi® 2 AI アクセラレーター) の結果を提出し、AI アクセラレーターのパフォーマンスとスケーラビリティー (70B-175B パラメーターの LLM を容易にトレーニング可能)、および MLPerf の GPT-3 175B1 パラメーター・ベンチマーク・モデルを効率的にトレーニングできるインテル® Tiber™ デベロッパー・クラウドの能力を実証しました。

結果

MLPerf ベンチマークの結果から、インテル® Gaudi® 2 AI アクセラレーターは、引き続き AI コンピューティングにおける NVIDIA* H100 の唯一の代替品であることが分かります。1,024 基のインテル® Gaudi® 2 AI アクセラレーターを搭載した AI システムを使ってインテル® Tiber™ デベロッパー・クラウドでトレーニングした GPT-3 の TTT (time-to-train、トレーニング時間) は 66.9 分であり、これはインテル® Tiber™ デベロッパー・クラウド環境内の超大規模 LLM におけるインテル® Gaudi® 2 AI アクセラレーターの強力なスケーリング性能を証明しています1

ベンチマーク・スイートには、LoRA (Low-Rank Adaptation、大規模言語および拡散モデルのファイン・チューニング手法) を使用して Llama 2 70B パラメーター・モデルをファイン・チューニングする新しい測定も含まれていました。インテルの提出物は、8 個のインテル® Gaudi® 2 AI アクセラレーターで 78.1 分の TTT を達成しました。

詳細 (英語)

インテル® Gaudi® AI アクセラレーターがもたらす AI 価値

高いコストによって、多くの企業が AI 市場から撤退しています。インテル® Gaudi® AI アクセラレーターはそれを変えようとしています。COMPUTEX でインテルが発表した、システム・プロバイダー向けに提供されるユニバーサル・ベースボード (UBB) と 8 基のインテル® Gaudi® 2 AI アクセラレーターを含む標準的な AI キットの価格は $65,000 で、同等の競合プラットフォームと比べてコストが 3 分の 1 になると推定されます。また、8 基のインテル® Gaudi® 3 AI アクセラレーターと UBB を含むキットの価格は $125,000 で、同等の競合プラットフォームと比べてコストが 3 分の 2 になると推定されます2

インテル® Tiber™ デベロッパー・クラウドの価値

インテルのクラウドは、AI モデル、アプリケーション、ソリューションを開発およびデプロイするための、ユニークで管理されたコスト効率の高いプラットフォームを企業顧客に提供します。インテル® Tiber™ デベロッパー・クラウドでは、インテルのアクセラレーター、CPU、GPU、オープン AI ソフトウェア・スタック、その他のサービスに簡単にアクセスできます。詳細はこちら

関連情報

1 MLPerf の GPT-3 測定は、MLCommons ベンチマークを共同で考案した参加企業によって決定された、モデル全体の 1% の典型的なスライスで実施されています。

2 カードやシステムの価格ガイダンスはモデリングのみを目的としています。最終的な価格については、各 OEM メーカーにご相談ください。結果は数量とリードタイムによって異なる場合があります。

ワークロードと構成については、MLCommons.org を参照してください。結果は異なることがあります。


インテル® Core™ Ultra プロセッサー上で実行が最適化された AI モデルが 500 を超える

2024年5月1日 | インテル® Core™ Ultra プロセッサー・ファミリー

インテルが PC 業界で最も堅牢な AI PC ツールチェーンを構築

インテルは本日、市場で入手可能な業界最高峰の AI PC プロセッサーである新しいインテル® Core™ Ultra プロセッサー上で実行が最適化された、事前学習済み AI モデルの数が 500 を超えたことを発表しました。

大規模言語、拡散、超解像、物体検出、画像分類とセグメンテーション、コンピューター・ビジョンなど、20 以上のローカル AI 推論カテゴリーにおよぶ、Phi-2、Mistral、Llama、BERT、Whisper、Stable Diffusion 1.5 などのモデルが含まれます。

これは、AI PC の変革を促進しサポートするインテルの取り組みにとって画期的な瞬間です。インテル® Core™ Ultra プロセッサーは、急成長している AI PC プロセッサーで、新しい AI エクスペリエンス、没入型グラフィックス、最適なバッテリー寿命が特徴です。また、他のプロセッサー・ベンダーよりも多くの AI モデル、フレームワーク、ランタイムに対応した、AI PC 開発用の最も堅牢なプラットフォームです。

500 のモデルはすべて、CPU、GPU、NPU にデプロイできます。これらのモデルは、OpenVINO™ Model Zoo、Hugging Face*、ONNX* Model Zoo、PyTorch* など、業界で人気のあるソースで利用可能です。

詳細 (英語)

関連情報


インテルのテクノロジーにより最適化された Canonical Ubuntu* 24.04 LTS リリース

2024年4月25日 | Ubuntu* 24.04 LTS (英語)、インテル® QATインテル® TDX (英語)

本日、Canonical は Ubuntu* 24.04 LTS (開発コード名 Noble Numbat) のリリースを発表しました。この 10 回目の長期サポートリリースでは、CPU 上のワークロードを高速化するインテル® クイックアシスト・テクノロジー (インテル® QAT) 統合や、プライベート・データセンターにおけるコンフィデンシャル・コンピューティングを強化するインテル® Trust Domain Extensions (インテル® TDX) のサポートなど、パフォーマンス・エンジニアリングとコンフィデンシャル・コンピューティングの進歩が融合されています。

Ubuntu* は、インテルの最先端機能を利用するのに最適です。Canonical とインテルは、プラットフォーム全体で大規模なパフォーマンスとセキュリティを実現するという理念を共有しています。

インテル コーポレーション システム・ソフトウェア・エンジニアリング VP 兼 GM Mark Skarpness

主な機能

  • パフォーマンス・エンジニアリング・ツール – システムコール・パフォーマンスが向上した最新の Linux* 6.8 カーネル、ppc64el でのネストされた KVM サポート、カーネルタスクのスケジューリング遅延を軽減する機能、およびより完全な CPU とオフ CPU をプロファイルするため、すべての 64 ビット・アーキテクチャーでデフォルトでオンになるフレーム・ポインターを含みます。
  • インテル® QAT 統合 – 第 4 世代および新しいインテル® Xeon® スケーラブル・プロセッサーでの暗号化と圧縮の高速化、CPU 利用率の軽減、ネットワークとストレージ・アプリケーションのパフォーマンス向上を実現します。
  • インテル® TDX サポート – アプリケーション層に変更を加えることなく、ホスト側とゲスト側の両方で拡張機能をシームレスにサポートし、既存のワークロードのコンフィデンシャル・コンピューティング環境への移植と移行を大幅に簡素化します。
  • 開発者の生産性の向上 – Python* 3.12、Ruby 3.2、PHP 8.3、Go* 1.22 が含まれており、.NET、Java*、Rust* の開発者エクスペリエンスに重点が置かれています。

詳細 (英語)
Ubuntu* 24.04 LTS のダウンロード (英語)
ブログ記事「Noble Numbat Deep Dive」 (英語)

Canonical について

Ubuntu* の発行元である Canonical (英語) は、オープンソースのセキュリティー、サポート、サービスを提供しています。そのポートフォリオは、最小のデバイスから最大のクラウドまで、カーネルからコンテナまで、データベースから AI まで、重要なシステムをカバーしています。


Seekr がインテル® Tiber™ デベロッパー・クラウドで大幅なコスト削減と AI ビジネスの成長を実現

2024年4月10日 | インテル® Tiber™ デベロッパー・クラウド

コンテンツの評価と生成向けの低コストで信頼できる AI

Fast Company によって 2024年の最も革新的な企業の 1 つに選ばれた Seekr (英語) は、インテル® Tiber™ デベロッパー・クラウド1 を利用して、インテル® Gaudi® 2 AI アクセラレーターを含む最新のインテルのハードウェアとソフトウェアで構成される、費用対効果に優れたクラスター上で高度な LLM を構築、トレーニング、デプロイしています。AI を高速化するインテルとの戦略的協業により、Seekr は増え続ける計算能力への需要に対応しつつ、クラウドコストを削減し、ワークロードのパフォーマンス向上を達成しています。

ソリューションの概要

Seekr の人気製品である Flow と Align は、顧客が AI を活用してコンテンツと広告戦略を展開および最適化し、スケーラブルで構成可能なワークフローを使用して LLM パイプライン全体をトレーニング、構築、管理するのに役立ちます。

これには膨大な計算能力が必要であり、これまでは多額のインフラストラクチャー投資とクラウドコストを要していました。

運用ワークロードをオンプレミスからインテル® Tiber™ デベロッパー・クラウドに移行することで、Seekr は、数千枚のインテル® Gaudi® 2 カードを含むインテルのハードウェアおよびソフトウェア・テクノロジーの能力と容量を利用して、従来よりも低コストで、非常に高いパフォーマンスの LLM を構築できるようになりました。

詳細 (英語) →
ケーススタディー (ベンチマークを含む)

Seekr について

Seekr は、ブランドの信頼に対する顧客のニーズを解決しながら、インターネットをより安全で価値のあるものにすることを目標に、大規模な信頼性の高いコンテンツを識別、採点、生成する大規模言語モデル (LLM) を構築しています。同社の顧客には、Moderna、SimpliSafe、Babbel、Constant Contact、Indeed が含まれます。

1 旧「インテル® デベロッパー・クラウド」は、エンタープライズ・ビジネス・ソリューションのインテル® Tiber™ ポートフォリオの一部になりました。


Intel Vision 2024 でオープンかつセキュアなエンタープライズ AI への全面的な取り組みを発表

2024年04月9日

Intel Vision 2024 (英語) において、インテル コーポレーション CEO の Pat Gelsinger は、AI 全体にわたる新しい戦略、次世代の製品とポートフォリオ、顧客、コラボレーションを紹介しました。

最初に紹介されたインテル® Tiber™ は、AI、クラウド、エッジ、信頼性とセキュリティにわたるエンタープライズ向けソフトウェアとサービスの展開を合理化する補完的なビジネス・ソリューションと、エンタープライズ向け生成 AI にさらなるパフォーマンス、オープン性、選択肢をもたらすインテル® Gaudi® 3 アクセラレーターで構成されるポートフォリオです。

20 社を超える顧客企業が、インテル® アーキテクチャー上で動作する主要な AI ソリューションを展示し、LLM/LVM プラットフォーム・プロバイダーである Landing.ai、Roboflow、および Seekr が、インテル® Tiber™ デベロッパー・クラウド上でインテル® Gaudi® 2 アクセラレーターを使用して、運用レベルのソリューションを開発、チューニング、デプロイするデモを実施しました。

またインテルは、Google Cloud、Thales、Cohesity とのコラボレーションにより、インテルのコンフィデンシャル・コンピューティング機能を各社のクラウド・インスタンスに実装する計画を発表しました。これには、インテル® トラスト・ドメイン・エクステンションズ (インテル® TDX)、インテル® ソフトウェア・ガード・エクステンションズ (インテル® SGX)、インテル® Tiber™ Trust Services1 認証サービスが含まれます。

さらに、エンタープライズ AI 向けオープン・プラットフォームの開発、E-core および P-core 搭載のインテル® Xeon® 6 プロセッサーとクライアント、エッジ、コネクティビティー向けのシリコンを含むインテルの AI ロードマップとオープン・エコシステム・アプローチの拡大についても発表がありました。

プレスリリース

あらゆる企業が急速に AI 対応の組織へと移行しています。インテル® Gaudi® アクセラレーター、インテル® Xeon® プロセッサー、インテル® Core™ Ultra プロセッサー、イーサネット対応ネットワーク、オープン・ソフトウェアなど、柔軟なソリューションを結集したインテルのオープンでスケーラブルなシステムは、現在および将来にわたって企業の AI ニーズに応え、企業全体に AI を浸透させています。

インテル コーポレーション
CEO
Pat Gelsinger

主な内容

ビジネス向けソリューションを提供するインテル® Tiber™ ポートフォリオは、AI を含め企業環境へのソフトウェアやサービスの導入を効率化し、顧客企業と開発者がセキュリティー、コンプライアンス、パフォーマンスのいずれも妥協することなく、ニーズに合ったソリューションを見つけ、イノベーションを加速し、価値を最大限に引き出すことを容易にします。完全な展開は 2024年の第 3 四半期に予定されています。インテル® Tiber™ については、こちらを参照してください。

インテル® Gaudi® 3 AI アクセラレーターは、インテル® Gaudi® 2 AI アクセラレーターと比較して、計算能力が 4 倍、メモリー帯域幅が 1.5 倍増加しており、LLaMa 7B および 70B、Falcon 180B の LLM 推論で平均 50%、電力効率で 60% NVIDIA* H100 を上回るパフォーマンスを発揮すると予測されています。インテル® Tiber™ デベロッパー・クラウドを含め、2024年の第 2 四半期に利用可能になる予定です。

インテル® Tiber™ デベロッパー・クラウドの最新リリースには、インテル® Gaudi® 2 アクセラレーターとインテル® データセンター GPU マックス・シリーズの大規模クラスターをホストする BMaaS (Bare Metal as a Service) オプション、インテル® Gaudi® 2 アクセラレーター上で動作する VM、ファイルストレージを含む StaaS (Storage as a Service)、クラウドネイティブな AI ワークロード向けのインテル® Kubernetes Service など計算能力を高める新しいハードウェアとサービスが含まれています。

Seekr がインテル® Tiber™ デベロッパー・クラウドを利用して、大規模なコンテンツの生成と評価向けの信頼できる LLM をデプロイした事例をご覧ください。

ケーススタディー | ブログ (英語)

コンフィデンシャル・コンピューティングにおける Thales と Cohesity とのコラボレーションは、信頼性とセキュリティーを向上し、企業顧客のリスクを軽減します。

  • 世界有数のテクノロジーおよびセキュリティー・プロバイダーの Thales (英語) は、エンドツーエンドのデータ保護を提供する Google Cloud Platform* 上の独自の CipherTrust データ・セキュリティ・プラットフォームと、コンフィデンシャル・コンピューティングとクラウドに依存しない信頼性認証を提供するインテル® Tiber™ Trust Services で構成されるデータ・セキュリティー・ソリューションを発表しました。これにより、企業は保存中、転送中、使用中のデータを保護する追加の制御が可能になります。

プレスリリース (英語) | ブログ (英語)

  • AI を活用したデータ・セキュリティーと管理のリーダーである Cohesity は、Cohesity Data Cloud にコンフィデンシャル・コンピューティング機能を追加したことを発表しました。このソリューションは、インテル® SGX およびインテル® Tiber™ Trust Services と連携し、使用中のデータを暗号化する FortKnox サイバー保管庫サービスを活用することで、メインメモリーで処理中のデータに悪意のある企業がアクセスするリスクを低減します。これは、金融サービス、ヘルスケア、政府機関など規制のある産業にとって非常に重要です。

プレスリリース (英語) | ブログ (英語)

関連情報

1 旧インテル® Trust Authority


インテル® ソフトウェア開発ツールのバージョン 2024.1 リリース

2024年03月28日 | インテル® ソフトウェア開発ツール

世界初の SYCL* 2020 準拠ツールチェーンで、自信を持ってコードを高速化

インテル® ソフトウェア開発ツール 2024.1 がリリースされました。アクセラレーテッド・コンピューティングにとって重要なマイルストーンとして、インテル® oneAPI DPC++/C++ コンパイラーSYCL* 2020 仕様 (英語) を完全に採用した最初のコンパイラー (英語) となりました。

なぜこれが重要なのか?

SYCL* 2020 準拠のコンパイラーがあることで、開発者はコードが移植可能で、現在および将来のさまざまなアーキテクチャーとハードウェア・ターゲット (GPU を含む) にわたって確実にパフォーマンスを発揮することを確信できます。

「SYCL* 2020 は、生産性の高いヘテロジニアス・コンピューティングを可能にし、今日のソフトウェアとハードウェアの複雑な現実に対応するハイパフォーマンスな並列ソフトウェアを作成するために必要な制御を提供します。SYCL* 2020 Khronos Adopter となったことで、オープン・スタンダードのサポートに対するインテルの取り組みが改めて示されました。」

Khronos SYCL* ワーキンググループ (作業部会) 議長
ブリストル大学先端コンピューター・システム講師
Tom Deakin 博士

ツールの詳細とダウンロード

主な利点

  1. 自信を持ってコードを作成し、高速にビルド – SYCL* 2020 に完全準拠したインテル® oneAPI DPC++/C++ コンパイラーを利用して、最新の C++ コードのパフォーマンスと生産性を高めるため並列処理を最適化します。AI、HPC、分散コンピューティングにわたる新しいマルチアーキテクチャー機能を探索します。また、拡張されたウェブベースのセレクター (英語) のオプションセットを使用して、関連する AI ツールに素早く簡単にアクセスできます。

  2. AI ワークロードの高速化と計算コストの軽減 – インテルの新しい CPU および GPU でパフォーマンスを向上します。これには、第 5 世代インテル® Xeon® スケーラブル・プロセッサー上で oneDNN を使用した最大 14 倍のパフォーマンス向上1、PyTorch* や TensorFlow*2 などの一般的なディープラーニング・フレームワークとライブラリーの 10 倍から 100 倍の高速化、XGBoost、LightGBM、および CatBoost にわたるより高速な勾配ブースティング推論が含まれます。scikit-learn* 向けインテル® エクステンションのアルゴリズム拡張機能を使用して、コストを削減して並列計算を実行します。

  3. イノベーションの促進とデプロイの拡大 – インテル® oneAPI DPC++/C++ コンパイラーで複数の SYCL* バックエンドで利用できるようになった、SYCL* Graph を使用した効率良いコードオフロードにより、一度のチューニングで汎用的にデプロイできます。インテル® DPC++ 互換性ツールでは、より多くの CUDA* API を CUDA* から SYCL* へ簡単に移行できるようになりました。さらに、CodePin 技術プレビュー (SYCLomatic の新機能) で時間の節約を調査し、テストベクトルを自動キャプチャーし、移行後すぐに検証を開始できます。Codeplay は、NVIDIA* GPU と AMD* GPU 用の oneAPI プラグインに新しいサポートと機能を追加しています。

要点

以下は、コンポーネント・レベルの詳細です。

コンパイラー

  • インテル® oneAPI DPC++/C++ コンパイラーは、SYCL* 2020 準拠の最初のコンパイラーであり、開発者は SYCL* コードが移植可能であり、現在および将来のさまざまな GPU 上で確実に動作することを確信できます。強化された SYCL* Graph により、マルチスレッド処理やスレッドセーフ関数をアプリケーションとシームレスに統合できるようになり、複数の SYCL* バックエンドで利用できるようになったため、一度のチューニングでどこでもデプロイすることが可能です。OpenMP* 5.0、5.1、5.2、TR12 言語標準への準拠が拡張され、パフォーマンスが向上しました。

  • インテル® Fortran コンパイラーは、C コードと Fortran コード間の互換性と相互運用性の向上、三角関数の計算の簡素化、事前定義されたデータ型など、Fortran 2023 言語機能をさらに追加して、コードの移植性を向上させ、一貫した動作を保証します。OpenMP* オフロード・プログラミングの生産性が向上し、コンパイラーの安定性も向上しています。

パフォーマンス・ライブラリー

  • インテル® oneAPI マス・カーネル・ライブラリー (インテル® oneMKL) は、インテル® GPU とホスト CPU 間のデータ転送を軽減する新しい最適化と機能を導入し、CNR を介してインテル® GPU 上で BLAS レベル 3 演算の結果を実行間で再現できるようにします。また、CUDA* と同等の機能を追加することで、CUDA* から SYCL* への移行を合理化します。

  • インテル® oneAPI データ・アナリティクス・ライブラリー (インテル® oneDAL) は、精度を犠牲にすることなく、XGBoost、LightGBM、および CatBoost にわたる勾配ブースティング推論の高速化を可能にします。観測値のクラスタリングに使用される特徴のサブセットを自動的に識別するスパース K 平均のサポートにより、クラスタリングを改善します。

  • インテル® oneAPI ディープ・ニューラル・ネットワーク・ライブラリー (インテル® oneDNN) (英語) は、LLM パフォーマンスを向上する GPT-Q のサポート、プリミティブと Graph API の fp8 データ型、レイヤーの正規化用の fp16 および bf16 のスケール引数とシフト引数、固定環境の実行間で結果がビット単位で同一であることを保証するオプトイン決定論的モードが追加されています。

  • インテル® oneAPI DPC++ ライブラリー (インテル® oneDPL) (英語) は、インテル® GPU 上でアプリのパフォーマンスを向上させる特殊なソート・アルゴリズムと、ステンシル計算のニーズに対応するマスク入力を備えた transform_if バリアントが追加され、AI と科学計算を高速化するため、ヒストグラム・アルゴリズムを使用して C++ STL 形式のプログラミングを拡張しています。

  • インテル® oneAPI コレクティブ・コミュニケーション・ライブラリー (oneCCL) (英語) は、すべての主要な通信パターンを最適化し、メモリー効率の良い方法でメッセージの受け渡しを高速化し、推論パフォーマンスを向上します。

  • インテル® インテグレーテッド・パフォーマンス・プリミティブ (インテル® IPP) は、大規模なデータ集約型アプリケーションにおいて高速なデータ転送とストレージ要件の軽減を実現するため、XMSS ポスト量子ハッシュベースの暗号化アルゴリズム (技術プレビュー)、FIPS 140-3 準拠、更新された LZ4 可逆データ圧縮アルゴリズムなど、量子コンピューティング、サイバーセキュリティー、およびデータ圧縮の機能とサポートを拡張しています。

  • インテル® MPI ライブラリーは、リモートメモリーへ効率良くアクセスする GPU RMA や、MPI 4.0 の Persistent Collectives や Large Counts サポートなど、アプリケーションのパフォーマンスとプログラミングの生産性を向上する新機能が追加されています。

AI および ML ツールとフレームワーク

  • インテル® ディストリビューションの Python* は、データ並列制御 (dpctl) ライブラリーの Python* 配列 API 標準への完全準拠や NVIDIA* デバイスのサポートなど、より将来性の高いコードを開発する機能を拡張してます。NumPy* 用データ並列拡張機能では、線形代数、データ操作、統計、データ型が強化され、キーワード引数のサポートが拡張されています。Numba* 用データ並列拡張機能では、カーネルの起動時間が改善されています。

  • scikit-learn* 向けインテル® エクステンション (英語) は、増分共分散を使用して変更されたデータセット部分のみで計算を行い、SPMD インターフェイスを使用して並列 GPU 計算を実行することで、GPU の計算コストを軽減します。

  • Modin 向けインテル® ディストリビューション (英語) は、データ資産の脆弱性を事前に特定して修復する堅牢なセキュリティー・ソリューションや、非同期実行を最適化するパフォーマンスの修正など、セキュリティーとパフォーマンスを大幅に強化します (注: 2024.2 リリースでは、開発者はアップストリーム・チャネルを通じて Modin にアクセスできます)。

アナライザーとデバッガ―

  • インテル® VTune™ プロファイラーは、SYCL* アプリケーションのパフォーマンス低下を招くホストと GPU 間の暗黙の USM データ移動を特定し、理解するのに役立つ機能が拡張されています。また、.NET 8、Ubuntu* 23.10、および FreeBSD* 14.0 がサポートされました。

  • インテル® ディストリビューションの GDB (英語) は、最新のアプリケーション・デバッグ機能に対応するため、GDB 14 ベースに変わりました。メモリーアクセスの問題をリアルタイムでモニターし、トラブルシューティングできます。GPU アクセラレーション・アプリケーションのより包括的なデバッグと最適化のため、大規模汎用レジスターファイル用のデバッグモードがサポートされました。

レンダリングとレイトレーシング

  • インテル® Embree は、クロスアーキテクチャー・コードの移行をスムーズにするため、SYCL* プラットフォームとドライバーのエラーレポートを強化しています。安定性、セキュリティー、パフォーマンス機能が向上しています。

  • インテル® オープン・イメージ・デノイズは、x86 および ARM 製 CPU (Windows*、Linux*、macOS* での ARM サポートを含む)、および インテル、NVIDIA、AMD、Apple 製の GPU など、すべてのプラットフォームでマルチベンダーのノイズ除去を完全にサポートします。

ツールの詳細とダウンロード

関連情報

脚注

パフォーマンス指標: 第 5 世代インテル® Xeon® スケーラブル・プロセッサー (英語)
2 「ソフトウェア AI アクセラレーターで最大 100 倍のパフォーマンス向上を実現


インテル® Gaudi®2 アクセラレーターとインテル® Xeon® プロセッサーは生成 AI に高度な推論パフォーマンスを提供

2024年3月27日 | インテル® デベロッパー・クラウドMLCommons (英語)

インテル® Gaudi®2 アクセラレーターと第 5 世代インテル® Xeon® プロセッサーの最新の MLPerf* の結果は、インテルが生成 AI のパフォーマンスの水準を高めていることを示しています。

本日 MLCommons は、インテル® Gaudi®2 アクセラレーターとインテル® AMX をサポートする第 5 世代インテル® Xeon® スケーラブル・プロセッサーを含む、業界標準の推論ベンチマーク MLPerf* v4.0 の結果を発表しました。

インテル® Gaudi®2 アクセラレーターは、大規模言語モデル (LLM) およびマルチモーダル・モデルにおいて、NVIDIA* H100 に代わる唯一のベンチマーク対象製品として、総所有コストを評価する際に重要となる説得力のある価格/性能を提供します。CPU では、インテルは MLPerf の結果を提出した唯一のサーバー CPU ベンダーです (そして、インテル® Xeon® プロセッサーは多くのアクセラレーターのホスト CPU です)。

詳細と結果は、こちら (英語) を参照してください。

インテル® デベロッパー・クラウドで評価

インテル® デベロッパー・クラウドでは、小規模および大規模なトレーニング (LLM または生成 AI) や推論用のプロダクション・ワークロードの大規模な実行、AI コンピューティング・リソースの管理など、第 5 世代インテル® Xeon® プロセッサーおよびインテル® Gaudi®2 アクセラレーターを評価できます。こちらからサブスクリプション・オプションを確認し、アカウントにも申し込むことができます。


インテルが常時稼働の CPU パフォーマンス解析を自動化する Continuous Profiler ソリューションをオープンソース化

2024年3月11日 | インテル® Granulate™ Cloud Optimization Software (英語)

継続的かつ自律的な方法で実行時の効率を把握して、コードの最適化を簡素化

本日、インテルは、オープンソースの Continuous Profiler 最適化エージェントを公開しました。これは、イノベーションを促進し、開発者の生産性を向上する同社のオープン・エコシステム・アプローチの新たな一例です。

名前が示すように、Continuous Profiler は CPU 使用率を永続的に監視して、開発者、パフォーマンス・エンジニア、DevOps に、アプリケーションとワークロードのランタイムの非効率性を特定する常時稼働の自律的な方法を提供します。

仕組み

複数のサンプリング・プロファイラーを 1 つのフレームグラフに統合して、CPU が何に時間を費やしているか、特にコード内で高いレイテンシーやエラーが発生している場所を統一的に視覚化します。

使用すべき理由

Continuous Profiler は、チームがパフォーマンス・エラーを見つけて修正し、スムーズにデプロイできるよう支援する多数の独自機能を備えており、インテル® Granulate™ の継続的最適化サービスと互換性があり、数分でクラスター全体にデプロイでき、コードを変更することなくさまざまなプログラミング言語をサポートしています。

さらに、SOC2 認定 (英語) を受けており、インテルの高いセキュリティー基準に準拠しているため、導入における信頼性と信頼性が保証されます。Continuous Profiler は、Snap Inc. (Snapchat と Bitmoji)、ironSource (アプリ・ビジネス・プラットフォーム)、ShareChat (ソーシャル・ネットワーク・プラットフォーム) で採用されています。

プレスリリース (英語)

関連情報


インテル® ソフトウェア開発ツール @KubeCon Europe 2024

2024年2月29日 | インテル® ソフトウェア開発ツール @ KubeCon Europe 2024 (英語)

インテルのエンタープライズ・ソフトウェア・ポートフォリオはエンタープライズ・アプリケーションで k8s スケーラビリティーを実現

KubeCon Europe 2024 (3月19日~22日) では、インテルのエンタープライズ・ソフトウェア・エキスパートから、デプロイメントの合理化と拡張、Kubernetes コストの削減、エンドツーエンドのデータ・セキュリティーを実現する方法を聞くことができます。

さらに、「Above the Clouds with American Airlines」 (英語) セッションに参加することで、世界トップクラスの航空会社がインテル® Granulate™ ソフトウェアを使用して、同社の最大のクラウドベースのワークロードで 23%のコスト削減を達成した方法を学ぶことができます。

インテルの K8s 向けエンタープライズ・ソフトウェアを採用する理由

インテルのエンタープライズ・ソフトウェア・ポートフォリオは、クラウドネイティブなアプリケーションとソリューションを効率良く大規模に高速化し、AI への道を素早く切り開くことを目的として構築されています。つまり、運用レベルの Kubernetes ワークロードを、管理しやすく、セキュアで、効率良くスケーリングする方法で実行できます。

次のようなメリットが得られます。

  • 最適化されたパフォーマンスとコスト削減
  • 合理化されたワークフローによる優れたモデル
  • セキュアでコンプライアンスに準拠したコンフィデンシャル・コンピューティング

インテルのエンタープライズ・ソフトウェア・ソリューションの詳細は、ブース #J17 でご確認ください。

KubeCon EU 2024 でインテルについて知ろう (英語) →

デモを申し込む (英語) →

関連情報


Prediction Guard はインテル® デベロッパー・クラウドにより LLM の信頼性とセキュリティーを顧客に提供

2024年2月22日 | インテル® デベロッパー・クラウド

AI スタートアップの Prediction Guard (英語) は、インテル® デベロッパー・クラウドのセキュアでプライベートな環境で LLM API をホスティングしており、インテルの回復機能を備えたコンピューティング・リソースを活用して、顧客の生成 AI アプリケーション向けにクラウド運用で最高のパフォーマンスと一貫性を提供しています。

同社の AI プラットフォームは、幻覚、有害な出力、プロンプトの注入などのセキュリティーと信頼性の問題を軽減しながら、企業が大規模な言語モデルの可能性を最大限に活用できるようにします。

インテル® デベロッパー・クラウドに移行することで、Prediction Guard は顧客に信頼性の高いコンピューティング能力と、最新の AI ハードウェア・アクセラレーション、ライブラリー、およびフレームワークを提供しています。同社は現在、インテル® Gaudi®2 AI アクセラレーター、インテルと Hugging Face が協力して提供している Optimum Habana ライブラリー、PyTorch* 向けインテル® エクステンション、および Transformer を利用しています。

「一部のモデルでは、インテル® Gaudi®2 への移行により、スループットを 2 倍向上する一方でコスト削減を実現しました。」

Prediction Guard
創設者
Daniel Whitenack 氏

ケーススタディー (英語) →

関連情報

Prediction Guard は、初期段階の AI やマシンラーニングなどのスタートアップ企業によるイノベーションとスケールアップを支援する、インテル® Liftoff 無料プログラムに参加しています。


新しい調査で 2024年のクラウド最適化の現状が明らかに

2024年2月20日 | インテル® Granulate™ ソフトウェア (英語)

インテル® Granulate™ クラウド最適化チームが実施し、新たに発表されたグローバル調査では、さまざまな業界にわたる 413 組織の DevOps、データ・エンジニアリング、IT リーダーのクラウド・コンピューティングにおける主要な傾向と戦略が評価されました。

調査結果から、大多数の組織 (66% 以上) にとって優先事項の 1 位と 2 位は、クラウドのコスト削減とアプリケーション・パフォーマンスの向上であることが明らかになりましたが、54% にはクラウドベースのワークロード最適化を専門とするチームがありません。

レポートでは、次のような傾向についても詳しく説明しています。

  • クラウド最適化の優先順位と目標
  • 現在の最適化の取り組みの評価
  • 最もコストが高く、最適化が困難なクラウドベースのワークロード
  • 技術スタックで使用される最適化ツール
  • 2024年に向けたイノベーション

レポートをダウンロードする (英語) →
デモを申し込む (英語) →


アメリカン航空がインテル® Granulate™ によりクラウド・ワークロードのコストを 23% 削減

2024年1月29日 | インテル® Granulate™ Cloud Optimization Software (英語)

アメリカン航空 (AA) はインテル® Granulate™ を利用して、Databricks データレイクに保存されている最も困難なワークロードを最適化し、維持することが難しいデータ管理価格の課題を軽減しました。

コード変更や開発作業を必要とせずに自律的かつ継続的な最適化を実現するインテル® Granulate™ ソリューションを導入することで、AA のエンジニアリング・チームは最適なペースと規模でデータを処理および分析し、ジョブクラスター実行にかかるリソースの 37% 削減と、すべてのクラスターコストの 23% 削減を実現しました。

ケース・スタディーを読む (英語) →
デモを申し込む (英語) →

Intel、インテル、Intel ロゴ、その他のインテルの名称やロゴは、Intel Corporation またはその子会社の商標です。


インテル® SHMEM がオープンソースをリリース

2024年1月10日 | インテル® SHMEM (英語) [GitHub]

インテル® SHMEM オープンソース・ライブラリーの最初のバージョン 1.0.0 は、OpenSHMEM (英語) プログラミング・モデルを拡張し、SYCL* クロスプラットフォーム C++ プログラミング環境を使用してインテル® データセンター GPU をサポートします。

OpenSHMEM (SHared MEMory) は、分散メモリーシステムの SPMD (Single Program Multiple Data) プログラミングを可能にする並列プログラミング・ライブラリー・インターフェイス標準です。これにより、ユーザーはスーパーコンピューターやクラスター・コンピューター間でプログラムの多数のコピーを実行する単一のプログラムを作成できます。

インテル® SHMEM は、アプリケーションが SYCL* で実装されたデバイスカーネルで OpenSHMEM 通信 API を使用できるようにする C++ ライブラリーです。PGAS (Partitioned Global Address Space) プログラミング・モデルを実装しており、現在の OpenSHMEM 標準のホスト起動型操作のサブセットと、GPU カーネルから直接呼び出せる新しいデバイス起動型操作が含まれています。

主な機能

  • インテル® データセンター GPU マックス・シリーズのサポート
  • OpenSHMEM 1.5 準拠のポイントツーポイント RMA、アトミックメモリー、シグナリング、メモリー順序付け、および同期操作に対するデバイスおよびホスト API のサポート
  • OpenSHMEM 集合操作におけるデバイスおよびホスト API のサポート
  • リモート・メモリー・アクセス、シグナリング、集合、メモリー順序付け、および同期操作の SYCL* ワークグループおよびサブグループ・レベルの拡張機能に対するデバイス API サポート
  • OpenSHMEM 仕様の C11 汎用選択ルーチンを置き換える C++ テンプレート関数ルーチンのサポート
  • 高性能ネットワーク・サービスに適した Libfabric プロバイダーと Sandia OpenSHMEM で構成された場合の GPU RDMA サポート
  • SHMEM Symmetric Heap にデバイスメモリーまたは USM を選択可能

詳細 (英語)
(インテルの 3 人のシニア・ソフトウェア・エンジニアによるブログ)

関連情報


2023年

2022年

2021年

2020年

タイトルとURLをコピーしました