[従来] モデルを FP16 に圧縮

危険

ここで説明されているコードは非推奨になりました。従来のソリューションの適用を避けるため使用しないでください。下位互換性を確保するためにしばらく保持されますが、最新のアプリケーションでは使用してはなりません

このガイドでは、非推奨となった変換方法について説明します。新しい推奨方法に関するガイドは、変換パラメーターの記事に記載されています。

デフォルトでは、IR が保存されると、モデル変換中に関連するすべての浮動小数点重みが FP16 データタイプに圧縮されます。その結果、ファイルシステム内の元の領域の約半分を占める “圧縮された FP16 モデル” が作成されます。圧縮により精度が若干低下する可能性がありますが、ほとんどのモデルでは無視できる程度です。精度の低下が顕著な場合は、ユーザーは圧縮を明示的に無効にできます。

圧縮を無効にするには、compress_to_fp16=False オプションを使用します。

from openvino.runtime import save_model
ov_model = save_model(INPUT_MODEL, compress_to_fp16=False)
mo --input_model INPUT_MODEL --compress_to_fp16=False

プラグインが圧縮された FP16 モデルを処理する方法の詳細については、推論デバイスとモードを参照してください。

FP16 圧縮は、INT8 量子化の事前ステップとして使用されることがあります。詳細については、トレーニング後の最適化を参照してください。

一部の大規模モデル (数 GB を超える) は、FP16 に圧縮すると、推論の読み込みフェーズで大量の RAM を消費する可能性があります。モデルがこれに該当する場合は、圧縮なしで変換してみてください: convert_model(INPUT_MODEL, compress_to_fp16=False) または convert_model(INPUT_MODEL)