machine-translation-nar-ru-en-0002#

ユースケースと概要説明#

これは、非自己回帰のトランスフォーマー・トポロジーに基づくロシア語と英語の機械翻訳モデルです。モデルは内部データセットでトレーニングされています。

トークン化は、SentencePieceBPETokenizer (実装の詳細はデモコードを参照) と、それに含まれる tokenizer_src フォルダーと tokenizer_tgt フォルダーを使用して行われます。

仕様#

メトリック	値
GOps	23.17
MParams	69.29
ソース・フレームワーク	PyTorch*

精度#

品質メトリックは、wmt19-ru-en データセットに基づいて計算されました (小文字でテスト分割)。

メトリック	値
BLEU	23.1%

追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model> を使用します。path_to_folder_with_downloaded_model は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。

入力#

名前: tokens 形状: 1, 192 説明: トークン化された文を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>、</s> および <pad> は、辞書で指定されている対応するトークン ID に置き換える必要があります): <s> + トークン化された文 + </s> + (シーケンスの最大長 192 までトークンを埋め込みます)

出力#

名前: pred 形状: 1, 192 説明: トークン化された翻訳を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>、</s> および <pad> は、辞書で指定されている対応するトークン ID に置き換える必要があります): <s> + トークン化された文 + </s> + (シーケンスの最大長 192 までトークンを埋め込みます)

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

機械翻訳の Python* デモ

法務上の注意書き#

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。