machine-translation-nar-ru-en-0002¶
ユースケースと概要説明¶
これは、非自己回帰のトランスフォーマー・トポロジーに基づくロシア語と英語の機械翻訳モデルです。モデルは内部データセットでトレーニングされています。
トークン化は、SentencePieceBPETokenizer (実装の詳細はデモコードを参照) と、それに含まれる tokenizer_src フォルダーと tokenizer_tgt フォルダーを使用して行われます。
仕様¶
メトリック |
値 |
---|---|
GOps |
23.17 |
MParams |
69.29 |
ソース・フレームワーク |
PyTorch* |
精度¶
品質メトリックは、wmt19-ru-en データセットに基づいて計算されました (小文字でテスト分割)。
メトリック |
値 |
---|---|
BLEU |
23.1% |
追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model>
を使用します。path_to_folder_with_downloaded_model
は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。
入力¶
名前: tokens
。形状: 1, 192
。説明: トークン化された文を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>
、</s>
および <pad>
は、辞書で指定されている対応するトークン ID に置き換える必要があります):
<s>
+ トークン化された文 + </s>
+ (シーケンスの最大長 192 までトークンを埋め込みます)。
出力¶
名前: pred
。形状: 1, 192
。説明: トークン化された翻訳を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>
、</s>
および <pad>
は、辞書で指定されている対応するトークン ID に置き換える必要があります):
<s>
+ トークン化された文 + </s>
+ (シーケンスの最大長 192 までトークンを埋め込みます)。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。