formula-recognition-polynomials-handwritten-0001 (複合)

ユースケースと概要説明

これは、Latex 式を認識する im2latex 複合モデルです。このモデルは語彙ファイル vocab.json を使用して、Latex トークンのシーケンスを予測します。このモデルは、追加のアテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-50 バックボーン上に構築されています。このモデルは、手書きの多項式の画像を含むインテル内部のデータセットでトレーニングされました。方程式は、このモデル語彙ファイルに対応するトークンから構成されます。

語彙ファイルは、対応するモデル構成ディレクトリー <models_dir>/models/intel/formula-recognition-polynomials-handwritten-0001/formula-recognition-polynomials-handwritten-0001-decoder/vocab.json の下にあります。モデルは文字、数字、上付き文字を予測できます。

入力データの例

出力の例

- 4 . 6 c ^ { 2 } d ^ { - 6 0 }

複合モデル仕様

メトリック

im2latex_polynomials_handwritten データセット、im2latex-match-images メトリック

70.5%

ソース・フレームワーク

PyTorch*

Im2latex-match-images メトリックは次にによって計算されます: <omz_dir>/tools/accuracy_checker/accuracy_checker/metrics/im2latex_images_match.py

エンコーダー・モデル仕様

Formula-recognition-polynomials-handwritten-0001-encoder モデルは、デコーダー用の初期化レイヤーを備えた ResNeXt-50 に類似したバックボーンです。

メトリック

GFlops

12.8447

MParams

8.6838

入力

画像、名前: imgs、形状: 1, 3, 96, 990、形式: 1, C, H, W

説明:

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想されるチャネルの順序は BGR です。

出力

  1. 名前: hidden、形状: 1, 512。LSTM セルの初期コンテキスト状態。

  2. 名前: context、形状: 1, 512。LSTM セルの初期の非表示状態。

  3. 名前: init_0、形状: 1, 256。デコーダーの初期状態。

  4. 名前: row_enc_out、形状: 1, 6, 62, 512。デコーダーに供給されるエンコーダーからの特徴。

デコーダーモデル仕様

Formula-recognition-polynomials-handwriting-0001-decoder モデルは、アテンション・モジュールを備えた LSTM ベースのデコーダーです。

メトリック

GFlops

0.2017

MParams

2.5449

入力

  1. 名前: dec_st_c、形状: 1, 512。LSTM セルの現在のコンテキスト状態。

  2. 名前: dec_st_h、形状: 1, 512。LSTM セルの現在の非表示状態。

  3. 名前: output_prev、形状: 1, 256。デコーダーの現在の状態。

  4. 名前: row_enc_out、形状: 1, 6, 62, 512。エンコードされた機能。

  5. 名前: tgt、形状: 1, 1。前のシンボルのインデックス。

出力

  1. 名前: dec_st_c、形状: 1, 512。LSTM セルの現在のコンテキスト状態。

  2. 名前: dec_st_h、形状: 1, 512。LSTM セルの現在の非表示状態。

  3. 名前: output、形状: 1, 256。デコーダーの現在の状態。

  4. 名前: logit、形状: 1, N、ここで、N は語彙サイズです。すべてのトークンの分類信頼スコアは [0, 1] の範囲です。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。