bert-base-ner#

ユースケースと概要説明#

bert-base-ner は、固有表現認識にすぐに使用できる微調整された BERT モデルであり、NER タスクの最先端のパフォーマンスを実現します。場所 (LOC)、組織 (ORG)、個人 (PER)、およびその他 (MISC) の 4 種類のエンティティーを認識するようにトレーニングされています。

具体的には、このモデルは、標準的な CoNLL-2003 固有表現認識データセットの英語版で微調整された bert-base-cased のモデルです。元のモデルの詳細については、BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング、HuggingFace のトランスフォーマー: 最先端の自然言語処理に関する論文、リポジトリー、およびモデルカードを参照してください。

トークン化は、BERT トークナイザー (実装の詳細についてはデモコードを参照) と同梱されている vocab.txt 辞書ファイルを使用して行われます。

仕様#

メトリック	値
GOps	22.3874
MParams	107.4319
ソース・フレームワーク	PyTorch*

精度#

品質メトリックは、CONLL-2003 固有表現認識データセット (開発セット) に基づいて計算されました。入力シーケンスは 128 シンボルにパディングされています。

メトリック	値
F1	94.45%

追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model> を使用します。path_to_folder_with_downloaded_model は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。

入力#

元のモデル#

トークン ID、名前: input_ids、形状: 1, 128。トークン ID は、トークン化された入力文を表す整数値です。シーケンス構造は次のとおりです ([CLS] および [SEP] は、辞書で指定されている対応するトークン ID に置き換える必要があります): [CLS] + トークン化された文 + [SEP] + 0 (シーケンスの最大長 128 までトークンを埋め込みます)
入力マスク、名前: attention_mask、形状: 1, 128。入力マスクは、入力内の有効な値のマスクを表す整数値です。入力の値は次と等しくなります:
- 1 は [CLS] + トークン化されたテキスト + トークン化された質問の前提 + input_ids の [SEP] 部分に対応する位置 (つまり、パディングを含む位置を除くすべての位置)、および
- 0 はそれ以外の位置です
トークンタイプ、名前: token_type_ids、形状: 1, 128。トークンタイプは、input_ids のセグメント化を表す整数値です。他のすべての位置では値は 0 に等しくなります (すべてのテキストは 1 つのセグメントに属します)。

[CLS] は、テキストの前に追加される特殊記号です。
[SEP] は、テキストの最後に追加される特殊な区切り文字です。

変換されたモデル#

変換されたモデルには、元のモデルと同じ入力があります。

出力#

元のモデル#

トークン分類子、名前: output、形状: 1, 128, 9 浮動小数点値ロジットのスコアベクトルで、各トークンが 9 つのクラスに属する確率を表します:

略語	説明
O	名前付きエンティティーの外側
B-MIS	別のその他のエンティティーの直後のその他のエンティティーの始まり
I-MIS	その他のエンティティー
B-PER	別の人の名前の直後の人の名前の始まり
I-PER	人の名前
B-ORG	別の組織の直後の組織の始まり
I-ORG	組織
B-LOC	別の位置の直後の位置の始まり
I-LOC	場所

変換されたモデル#

変換されたモデルはオリジナルと同じ出力を持ちます。

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

BERT 固有表現認識 Python* デモ

法務上の注意書き#

元のモデルは、MIT ライセンスに基づいて配布されています。