machine-translation-nar-ru-en-0002

ユースケースと概要説明

これは、非自己回帰のトランスフォーマー・トポロジーに基づくロシア語と英語の機械翻訳モデルです。モデルは内部データセットでトレーニングされています。

トークン化は、SentencePieceBPETokenizer (実装の詳細はデモコードを参照) と、それに含まれる tokenizer_src フォルダーと tokenizer_tgt フォルダーを使用して行われます。

仕様

メトリック

GOps

23.17

MParams

69.29

ソース・フレームワーク

PyTorch*

精度

品質メトリックは、wmt19-ru-en データセットに基づいて計算されました (小文字でテスト分割)。

メトリック

BLEU

23.1%

追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model> を使用します。path_to_folder_with_downloaded_model は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。

入力

名前: tokens。形状: 1, 192。説明: トークン化された文を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s></s> および <pad> は、辞書で指定されている対応するトークン ID に置き換える必要があります): <s> + トークン化された文 + </s> + (シーケンスの最大長 192 までトークンを埋め込みます)。

出力

名前: pred。形状: 1, 192。説明: トークン化された翻訳を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s></s> および <pad> は、辞書で指定されている対応するトークン ID に置き換える必要があります): <s> + トークン化された文 + </s> + (シーケンスの最大長 192 までトークンを埋め込みます)。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。