bert-large-uncased-whole-word-masking-squad-int8-0001

ユースケースと概要説明

これは、Whole-Word-Masking を使用して小文字の英語テキストで事前トレーニングされ、SQuAD v1.1 トレーニング・セットで微調整された BERT 大規模モデルです。このモデルは英語の質問応答を実行します。入力は、前提とその前提に対する質問を連結したもので、出力は前提内の質問に対する回答の場所です。オリジナルの浮動小数点モデルの詳細については、BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニングを参照してください。

トークン化は、BERT トークナイザー (実装の詳細についてはデモコードを参照) と同梱されている vocab.txt 辞書ファイルを使用して行われます。入力はトークン化する前に小文字にする必要があります。

モデルは、NNCF による量子化対応微調整により INT8 精度まで量子化されています。

仕様

メトリック

GOps

246.93

MParams

333.96

ソース・フレームワーク

PyTorch*

精度

品質メトリックは、SQuAD v1.1 データセット (“dev” 分割) に基づいて計算されました。最大シーケンス長は 384、最大クエリー長: 64、ドキュメント・ストライド: 128、入力は小文字です。

メトリック

F1

92.60%

完全一致 (EM)

86.36%

入力

  1. トークン ID、名前: input_ids、形状: 1, 384。トークン化された前提と質問 (“input_ids”) を表すトークン (整数値) のシーケンス。シーケンス構造は次のとおりです ([CLS][SEP] および [PAD] は、辞書で指定されている対応するトークン ID に置き換える必要があります): [CLS] + トークン化された質問 + [SEP] + トークン化された質問の前提 + [SEP] + (最大シーケンス長 384 までパディングする [PAD] トークン)。

  2. 入力マスク、名前: attention_mask、形状: 1, 384。入力内の有効な値のマスクを表す整数値のシーケンス (“input_mask”)。入力の値は次と等しくなります。

    • 1 は、[CLS] + トークン化された質問 + [SEP] + トークン化された質問の前提 + トークン ID の [SEP] 部分に対応する位置 (つまり、[PAD] トークンを含む位置を除くすべての位置)

    • 0 は、それ以外の位置

  3. セグメント ID、名前: token_type_ids、形状: 1, 384。トークン ID を質問と前提 (“segment_ids”) に分割することを表す一連の整数値。値は次のとおりです。

    • 1 は、質問のトークン化された前提に対応する位置 + トークン ID の [SEP] 部分

    • 0 は、それ以外の位置

出力

  1. 回答の開始、名前: output_s、形状: 1, 384。浮動小数点値のロジットスコア。i 番目の値は、入力の i 番目のトークン位置から始まる質問に対する回答の対数尤度に対応します。

  2. 回答の終了、名前: output_e、形状: 1, 384。浮動小数点値のロジットスコア。i 番目の値は、i 番目のトークン位置で終わる応答の対数尤度に対応します。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。