bert-base-ner¶
ユースケースと概要説明¶
bert-base-ner
は、固有表現認識にすぐに使用できる微調整された BERT モデルであり、NER タスクの最先端のパフォーマンスを実現します。場所 (LOC)、組織 (ORG)、個人 (PER)、およびその他 (MISC) の 4 種類のエンティティーを認識するようにトレーニングされています。
具体的には、このモデルは、標準的な CoNLL-2003 固有表現認識データセットの英語版で微調整された bert-base-cased のモデルです。元のモデルの詳細については、BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング、Hugging Face のトランスフォーマー: 最先端の自然言語処理に関する論文、リポジトリー、およびモデルカードを参照してください。
トークン化は、BERT トークナイザー (実装の詳細についてはデモコードを参照) と同梱されている vocab.txt
辞書ファイルを使用して行われます。
仕様¶
メトリック |
値 |
---|---|
GOps |
22.3874 |
MParams |
107.4319 |
ソース・フレームワーク |
PyTorch* |
精度¶
品質メトリックは、CONLL-2003 固有表現認識データセット (開発セット) に基づいて計算されました。入力シーケンスは 128 シンボルにパディングされています。
メトリック |
値 |
---|---|
F1 |
94.45% |
追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model>
を使用します。path_to_folder_with_downloaded_model
は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。
入力¶
元のモデル¶
-
トークン ID、名前:
input_ids
、形状:1, 128
。トークン ID は、トークン化された入力文を表す整数値です。シーケンス構造は次のとおりです ([CLS]
および[SEP]
は、辞書で指定されている対応するトークン ID に置き換える必要があります):[CLS]
+ トークン化された文 +[SEP]
+0
(シーケンスの最大長 128 までトークンを埋め込みます)。 -
入力マスク、名前:
attention_mask
、形状:1, 128
。入力マスクは、入力内の有効な値のマスクを表す整数値です。入力の値は次と等しくなります。1
は、[CLS]
+ トークン化されたテキスト + トークン化された質問の前提 +input_ids
の[SEP]
部分に対応する位置 (つまり、パディングを含む位置を除くすべての位置)0
は、それ以外の位置
-
トークンタイプ、名前:
token_type_ids
、形状:1, 128
。トークンタイプは、input_ids
のセグメント化を表す整数値です。他のすべての位置では値は0
に等しくなります (すべてのテキストは 1 つのセグメントに属します)。
[CLS]
は、テキストの前に追加される特殊記号です。[SEP]
は、テキストの最後に追加される特殊な区切り文字です。
変換されたモデル¶
変換されたモデルには、元のモデルと同じ入力があります。
出力¶
元のモデル¶
トークン分類子、名前: output
、形状: 1, 128, 9
浮動小数点値ロジットのスコアベクトルで、各トークンが 9 つのクラスに属する確率を表します。
略称 |
説明 |
---|---|
O |
名前付きエンティティーの外側 |
B-MIS |
別のその他のエンティティーの直後のその他のエンティティーの始まり |
I-MIS |
その他のエンティティー |
B-PER |
別の人の名前の直後の人の名前の始まり |
I-PER |
人の名前 |
B-ORG |
別の組織の直後の組織の始まり |
I-ORG |
組織 |
B-LOC |
別の位置の直後の位置の始まり |
I-LOC |
場所 |
変換されたモデル¶
変換されたモデルはオリジナルと同じ出力を持ちます。
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>