machine-translation-nar-en-de-0002¶
ユースケースと概要説明¶
これは、非自己回帰のトランスフォーマー・トポロジーに基づく英語-ドイツ語の機械翻訳モデルです。モデルは内部データセットでトレーニングされています。
トークン化は、SentencePieceBPETokenizer (実装の詳細はデモコードを参照) と、それに含まれる tokenizer_src フォルダーと tokenizer_tgt フォルダーを使用して行われます。
仕様¶
メトリック |
値 |
---|---|
GOps |
23.19 |
MParams |
77.47 |
ソース・フレームワーク |
PyTorch* |
精度¶
品質メトリックは、wmt19-en-de データセットに基づいて計算されました (小文字でテスト分割)。
メトリック |
値 |
---|---|
BLEU |
17.7% |
追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model>
を使用します。path_to_folder_with_downloaded_model
は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。
入力¶
名前: tokens
。形状: 1, 150
。説明: トークン化された文を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>
、</s>
および <pad>
は、辞書で指定されている対応するトークン ID に置き換える必要があります): <s>
+ トークン化された文 + </s>
+ (シーケンスの最大長 150 までトークンを埋め込みます)。
出力¶
名前: pred
形状: 1, 200
。説明: トークン化された翻訳を表すトークンのシーケンス (整数値)。シーケンス構造は次のとおりです (<s>
、</s>
および <pad>
は、辞書で指定されている対応するトークン ID に置き換える必要があります): <s>
+ トークン化された文 + </s>
+ (シーケンスの最大長 150 までトークンを埋め込みます)。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。