ステップ 3. 主な変換

主な変換は、低精度変換の大部分を指します。変換は逆量子化操作を使用して行われます。主な変換には以下が含まれます。

サンプルモデルの主な変換をいくつか見てみましょう。
元のモデル:

Original model

主な変換後の結果モデル:

Transformed model

主な変換後のサンプルモデルの変更点:

  • すべての FakeQuantize 操作 fakeQuantize1fakeQuantize2、および fakeQuantize3) が分解されました。

    • 元の FakeQuantize 操作は、他の出力間隔と出力ポート精度を備えた新しい操作に置き換えられました。

    • 逆量子化操作。

  • 逆量子化操作は、精度保持 (concat1 および concat2) および量子化 (convolution2) 操作を介して移動されました。

左のブランチ (branch #1) は、テンソルごとの量子化を必要としません。その結果、fakeQuantize1 の出力間隔は [0, 255] になります。ただし、convolution2 では、右ブランチ (branch #2) でテンソルごとの量子化が必要です。次に、接続されているすべての FakeQuantize 間隔操作 (fakeQuantize1 および fakeQuantize2) が、連結 (concat2) 操作の後にテンソルごとの量子化を持つように調整されます。