OpenVINO™ による固有表現認識#
この Jupyter ノートブックはオンラインで起動でき、ブラウザーのウィンドウで対話型環境を開きます。ローカルにインストールすることもできます。次のオプションのいずれかを選択します:
固有表現認識 (NER) は、非構造化テキスト内の重要な情報を検出し、それを事前定義されたカテゴリーに分類する自然言語処理方法です。これらのカテゴリーまたは名前付きエンティティーは、名前、場所、会社などのテキストの主要な意味を指します。
NER は、大量のテキストの概要を把握する場合に適した方法です。NER は、非構造化テキスト内の重要な情報を分析したり、大量のデータの情報抽出を自動化するタスクに役立ちます。
このチュートリアルでは、OpenVINO を使用して固有表現認識を実行する方法を示します。事前トレーニング済みモデル elastic/distilbert-base-cased-finetuned-conll03-english を使用します。これは、conll03 英語データセットでトレーニングされた DistilBERT ベースのモデルです。このモデルは、テキスト内の 4 つの名前付きエンティティー (人、場所、組織、および前の 3 つのグループに属さないさまざまなエンティティーの名前) を認識できます。モデルは大文字を検知します。
ユーザー体験を簡素化するため、Hugging Face Optimum ライブラリーを使用しモデルを OpenVINO™ IR 形式に変換して量子化します。
目次:
必要条件#
%pip install -q "diffusers>=0.17.1" "openvino>=2023.1.0" "nncf>=2.5.0" "gradio>=4.19" "onnx>=1.11.0" "transformers>=4.33.0" "torch>=2.1" --extra-index-url https://download.pytorch.org/whl/cpu
%pip install -q "git+https://github.com/huggingface/optimum-intel.git"
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
NER モデルをダウンロード#
Hugging Face Transformers library ライブラリーを備えた Hugging Face Hub と、OpenVINO 統合を備えた Optimum Intel から、distilbert-base-cased-finetuned-conll03-english モデルをロードします。
OVModelForTokenClassification
は、Optimum Intel の名前付きエンティティー認識タスクのモデルクラスを表します。モデルクラスの初期化は、from_pretrained
メソッドの呼び出しから始まります。オリジナルの PyTorch モデルを OpenVINO 形式にオンザフライで変換するには、export=True
パラメーターを使用する必要があります。モデルを保存するには、save_pretrained()
メソッドを使用します。モデルをディスクに保存すると、次回の使用時に事前変換されたモデルを使用できるためデプロイプロセスを高速化できます。
from pathlib import Path
from transformers import AutoTokenizer
from optimum.intel import OVModelForTokenClassification
original_ner_model_dir = Path("original_ner_model")
model_id = "elastic/distilbert-base-cased-finetuned-conll03-english"
if not original_ner_model_dir.exists():
model = OVModelForTokenClassification.from_pretrained(model_id, export=True)
model.save_pretrained(original_ner_model_dir)
else:
model = OVModelForTokenClassification.from_pretrained(model_id, export=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
INFO:nncf:NNCF initialized successfully. Supported frameworks detected: torch, tensorflow, onnx, openvino
No CUDA runtime is found, using CUDA_HOME='/usr/local/cuda' 2024-04-05 18:35:04.594311: I tensorflow/core/util/port.cc:111] oneDNN custom operations are on.You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable TF_ENABLE_ONEDNN_OPTS=0. 2024-04-05 18:35:04.596755: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used. 2024-04-05 18:35:04.628293: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered 2024-04-05 18:35:04.628326: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered 2024-04-05 18:35:04.628349: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered 2024-04-05 18:35:04.634704: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used. 2024-04-05 18:35:04.635314: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations. To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags. 2024-04-05 18:35:05.607762: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT /home/ea/miniconda3/lib/python3.11/site-packages/transformers/utils/import_utils.py:519: FutureWarning: is_torch_tpu_available is deprecated and will be removed in 4.41.0. Please use the is_torch_xla_available instead. warnings.warn( Framework not specified. Using pt to export the model. Using the export variant default. Available variants are: - default: The default ONNX variant. Using framework PyTorch: 2.1.2+cpu /home/ea/miniconda3/lib/python3.11/site-packages/transformers/modeling_utils.py:4225: FutureWarning: _is_quantized_training_enabled is going to be deprecated in transformers 4.39.0. Please use model.hf_quantizer.is_trainable instead warnings.warn( /home/ea/miniconda3/lib/python3.11/site-packages/nncf/torch/dynamic_graph/wrappers.py:80: TracerWarning: torch.tensor results are registered as constants in the trace. You can safely ignore this warning if you use this function to create tensors out of constant variables that would be the same every time you call this function. In any other case, this might cause the trace to be incorrect. op1 = operator(*args, **kwargs) Compiling the model to CPU ...
Hugging Face Optimum API を使用してモデルを量子化#
トレーニング後の静的量子化では、活性化量子化パラメーターを計算するためネットワーク経由でデータが供給されるキャリブレーション・ステップが追加されます。量子化には、Hugging Face Optimum Intel API が使用されます。
NNCF 量子化プロセスには、OVQuantizer クラスを使用します。Hugging Face Optimum Intel API を使用した量子化には、次の手順が含まれます: * モデルクラスの初期化は、from_pretrained()
メソッドの呼び出しから始まります。* 次に、get_calibration_dataset()
を使用して、トレーニング後の静的量子化キャリブレーション・ステップに使用するキャリブレーション・データセットを作成します。* モデルを量子化し、結果のモデルを OpenVINO IR 形式で quantize()
メソッドを使用して save_directory に保存します。* 次に、量子化されたモデルをロードします。Optimum Inference モデルは、Hugging Face Transformers モデルと API 互換性があり、AutoModelForXxx
クラスを対応する OVModelForXxx
クラスに置き換えるだけです。したがって、OVModelForTokenClassification
を使用してモデルを読み込みます。
from functools import partial
from optimum.intel import OVQuantizer, OVConfig, OVQuantizationConfig
from optimum.intel import OVModelForTokenClassification
def preprocess_fn(data, tokenizer):
examples = []
for data_chunk in data["tokens"]:
examples.append(" ".join(data_chunk))
return tokenizer(examples, padding=True, truncation=True, max_length=128)
quantizer = OVQuantizer.from_pretrained(model)
calibration_dataset = quantizer.get_calibration_dataset(
"conll2003",
preprocess_function=partial(preprocess_fn, tokenizer=tokenizer),
num_samples=100,
dataset_split="train",
preprocess_batch=True,
trust_remote_code=True,
)
# 量子化モデルが保存されるディレクトリー
quantized_ner_model_dir = "quantized_ner_model"
# 静的量子化を適用し、結果のモデルを OpenVINO IR 形式で保存
ov_config = OVConfig(quantization_config=OVQuantizationConfig(num_samples=len(calibration_dataset)))
quantizer.quantize(
calibration_dataset=calibration_dataset,
save_directory=quantized_ner_model_dir,
ov_config=ov_config,
)
/home/ea/miniconda3/lib/python3.11/site-packages/datasets/load.py:2516: FutureWarning: 'use_auth_token' was deprecated in favor of 'token' in version 2.14.0 and will be removed in 3.0.0. You can remove this warning by passing 'token=<use_auth_token>' instead.
warnings.warn(
Output()
Output()
INFO:nncf:18 ignored nodes were found by name in the NNCFGraph
INFO:nncf:25 ignored nodes were found by name in the NNCFGraph
Output()
Output()
import ipywidgets as widgets
import openvino as ov
core = ov.Core()
device = widgets.Dropdown(
options=core.available_devices + ["AUTO"],
value="AUTO",
description="Device:",
disabled=False,
)
device
Dropdown(description='Device:', index=3, options=('CPU', 'GPU.0', 'GPU.1', 'AUTO'), value='AUTO')
# 量子化モデルをロード
optimized_model = OVModelForTokenClassification.from_pretrained(quantized_ner_model_dir, device=device.value)
Compiling the model to AUTO ...
元のモデルと量子化モデルを比較#
オリジナルの distilbert-base-cased-finetuned-conll03-english モデルと、量子化され OpenVINO IR 形式に変換されたモデルを比較して、違いを確認します。
パフォーマンスを比較#
Optimum Inference モデルは Hugging Face Transformers モデルと API の互換性があるため、推論には Hugging Face
Transformers API の pipleine()
を使用するだけで済みます。
from transformers import pipeline
ner_pipeline_optimized = pipeline("token-classification", model=optimized_model, tokenizer=tokenizer)
ner_pipeline_original = pipeline("token-classification", model=model, tokenizer=tokenizer)
import time
import numpy as np
def calc_perf(ner_pipeline):
inference_times = []
for data in calibration_dataset:
text = " ".join(data["tokens"])
start = time.perf_counter()
ner_pipeline(text)
end = time.perf_counter()
inference_times.append(end - start)
return np.median(inference_times)
print(f"Median inference time of quantized model: {calc_perf(ner_pipeline_optimized)} ")
print(f"Median inference time of original model: {calc_perf(ner_pipeline_original)} ")
Median inference time of quantized model: 0.0063508255407214165
Median inference time of original model: 0.007429798366501927
モデルのサイズを比較#
from pathlib import Path
fp_model_file = Path(original_ner_model_dir) / "openvino_model.bin"
print(f"Size of original model in Bytes is {fp_model_file.stat().st_size}")
print(f'Size of quantized model in Bytes is {Path(quantized_ner_model_dir, "openvino_model.bin").stat().st_size}')
Size of original model in Bytes is 260795516
Size of quantized model in Bytes is 65802712
固有表現認識 OpenVINO ランタイムのデモを準備#
これで、独自のテキストで NER モデルを試すことができます。テキストボックスに文章を入力し、送信ボタンをクリックすると、モデルがテキスト内の認識されたエンティティーにラベルを付けます。
import gradio as gr
examples = [
"My name is Wolfgang and I live in Berlin.",
]
def run_ner(text):
output = ner_pipeline_optimized(text)
return {"text": text, "entities": output}
demo = gr.Interface(
run_ner,
gr.Textbox(placeholder="Enter sentence here...", label="Input Text"),
gr.HighlightedText(label="Output Text"),
examples=examples,
allow_flagging="never",
)
if __name__ == "__main__":
try:
demo.launch(debug=False)
except Exception:
demo.launch(share=True, debug=False)
# リモートで起動する場合は、server_name と server_port を指定
# demo.launch(server_name='your server name', server_port='server port in int')
# 詳細については、ドキュメントをご覧ください: https://gradio.app/docs/