machine-translation-nar-en-ru-0002#
ユースケースと概要説明#
これは、非自己回帰のトランスフォーマー・トポロジーに基づく英語-ロシア語の機械翻訳モデルです。モデルは内部データセットでトレーニングされています。
トークン化は、SentencePieceBPETokenizer (実装の詳細はデモコードを参照) と、それに含まれる tokenizer_src フォルダーと tokenizer_tgt フォルダーを使用して行われます。
仕様#
メトリック |
値 |
---|---|
GOps |
23.17 |
MParams |
69.29 |
ソース・フレームワーク |
PyTorch* |
精度#
品質メトリックは、wmt19-ru-en データセットに基づいて計算されました (小文字でテスト分割)。
メトリック |
値 |
---|---|
BLEU |
22.7% |
追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model>
を使用します。path_to_folder_with_downloaded_model
は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。
入力#
名前: tokens
形状: 1, 192
説明: トークン化された文を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>
、</s>
および <pad>
は、辞書で指定されている対応するトークン ID に置き換える必要があります):
<s>
+ トークン化された文 + </s>
+ (シーケンスの最大長 192 までトークンを埋め込みます)
出力#
名前: pred
形状: 1, 192
説明: トークン化された翻訳を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>
、</s>
および <pad>
は、辞書で指定されている対応するトークン ID に置き換える必要があります):
<s>
+ トークン化された文 + </s>
+ (シーケンスの最大長 192 までトークンを埋め込みます)
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。