formula-recognition-polynomials-handwritten-0001 (複合)¶
ユースケースと概要説明¶
これは、Latex 式を認識する im2latex 複合モデルです。このモデルは語彙ファイル vocab.json
を使用して、Latex トークンのシーケンスを予測します。このモデルは、追加のアテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-50 バックボーン上に構築されています。このモデルは、手書きの多項式の画像を含むインテル内部のデータセットでトレーニングされました。方程式は、このモデル語彙ファイルに対応するトークンから構成されます。
語彙ファイルは、対応するモデル構成ディレクトリー <models_dir>/models/intel/formula-recognition-polynomials-handwritten-0001/formula-recognition-polynomials-handwritten-0001-decoder/vocab.json
の下にあります。モデルは文字、数字、上付き文字を予測できます。
入力データの例¶
出力の例¶
- 4 . 6 c ^ { 2 } d ^ { - 6 0 }
複合モデル仕様¶
メトリック |
値 |
---|---|
im2latex_polynomials_handwritten データセット、im2latex-match-images メトリック |
70.5% |
ソース・フレームワーク |
PyTorch* |
Im2latex-match-images メトリックは次にによって計算されます: <omz_dir>/tools/accuracy_checker/accuracy_checker/metrics/im2latex_images_match.py
エンコーダー・モデル仕様¶
Formula-recognition-polynomials-handwritten-0001-encoder モデルは、デコーダー用の初期化レイヤーを備えた ResNeXt-50 に類似したバックボーンです。
メトリック |
値 |
---|---|
GFlops |
12.8447 |
MParams |
8.6838 |
入力¶
画像、名前: imgs
、形状: 1, 3, 96, 990
、形式: 1, C, H, W
。
説明:
C
- チャネル数H
- 画像の髙さW
- 画像の幅
予想されるチャネルの順序は BGR
です。
出力¶
名前:
hidden
、形状:1, 512
。LSTM セルの初期コンテキスト状態。名前:
context
、形状:1, 512
。LSTM セルの初期の非表示状態。名前:
init_0
、形状:1, 256
。デコーダーの初期状態。名前:
row_enc_out
、形状:1, 6, 62, 512
。デコーダーに供給されるエンコーダーからの特徴。
デコーダーモデル仕様¶
Formula-recognition-polynomials-handwriting-0001-decoder モデルは、アテンション・モジュールを備えた LSTM ベースのデコーダーです。
メトリック |
値 |
---|---|
GFlops |
0.2017 |
MParams |
2.5449 |
入力¶
名前:
dec_st_c
、形状:1, 512
。LSTM セルの現在のコンテキスト状態。名前:
dec_st_h
、形状:1, 512
。LSTM セルの現在の非表示状態。名前:
output_prev
、形状:1, 256
。デコーダーの現在の状態。名前:
row_enc_out
、形状:1, 6, 62, 512
。エンコードされた機能。名前:
tgt
、形状:1, 1
。前のシンボルのインデックス。
出力¶
名前:
dec_st_c
、形状:1, 512
。LSTM セルの現在のコンテキスト状態。名前:
dec_st_h
、形状:1, 512
。LSTM セルの現在の非表示状態。名前:
output
、形状:1, 256
。デコーダーの現在の状態。名前:
logit
、形状:1, N
、ここで、N
は語彙サイズです。すべてのトークンの分類信頼スコアは [0, 1] の範囲です。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。