gpt-2#
ユースケースと概要説明#
gpt-2
モデルは、Generative Pre-trained Transformer (GPT) モデルファミリーの 1 つであり、自己教師ありの方法で大規模な英語データのコーパスで事前トレーニングされています。GPT アーキテクチャーはディープ・ニューラル・ネットワーク、特にトランスフォーマー・モデルを実装しており、以前の再帰ベースおよび畳み込みベースのアーキテクチャーに代わってアテンションを使用します。アテンション・メカニズムにより、モデルは最も関連性が高いと予測される入力テキストのセグメントに選択的に焦点を当てることができます。GPT-2 は、テキスト内の前の単語がすべて与えられた場合に、次の単語を予測するという単純な目的でトレーニングされます。
仕様#
メトリック |
値 |
---|---|
タイプ |
テキスト予測 |
GFlops |
293.0489 |
MParams |
175.6203 |
ソース・フレームワーク |
PyTorch* |
GFlops は 1, 1024
の入力形状に対して計算され、長いコンテキストに適しています
精度#
変換されたモデルの WikiText-2 生の文字レベルデータのデータセットで取得されたパープレキシティー。
メトリック |
値 |
---|---|
パープレキシティー |
29.00% |
入力#
元のモデル#
トークン ID、名前: input
、形式 B, L
の動的形状、ここで:
B
- バッチサイズL
- シーケンス長
変換されたモデル#
トークン ID、名前: input
、形式 B, L
の動的形状、ここで:
B
- バッチサイズL
- シーケンス長
出力#
元のモデル#
言語モデリングヘッドの予測スコア、名前: output
、動的形状 - B, L, 50257
、形式 - B, L, S
、ここで:
B
- バッチサイズL
- シーケンス長S
- 語彙サイズ
変換されたモデル#
言語モデリングヘッドの予測スコア、名前: output
、動的形状 - B, L, 50257
、形式 - B, L, S
、ここで:
B
- バッチサイズL
- シーケンス長S
- 語彙サイズ
モデルをダウンロードして OpenVINO™ IR 形式に変換#
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
元のモデルは、MIT ライセンスに基づいて配布されています。