OpenVINO トークナイザー: OpenVINO パイプラインにテキスト処理を組み込み#
この Jupyter ノートブックはオンラインで起動でき、ブラウザーのウィンドウで対話型環境を開きます。ローカルにインストールすることもできます。次のオプションのいずれかを選択します:
OpenVINO トークナイザーは、トークナイザー変換を効率化してプロジェクトにシームレスに統合できるように設計された OpenVINO 拡張機能および Python ライブラリーです。Python および C++ 環境をサポートし、すべての主要プラットフォームと互換性があります: Linux*、Windows* および macOS*。
目次:
トークナイザーの基本#
ニューラル・ネットワークには、単にテキストを入力するのではなく、数字だけを入力します。テキストを数字のシーケンスに変換するプロセスはトークン化と呼ばれます。通常、元の文字列を変換し、辞書内の関連付けられた番号を使用して部分 (トークン) に分割するいくつかの手順が含まれます。インタラクティブな GPT-4 トークナイザーをチェックして、トークナイザーの動作原理を直感的に理解することができます。
トークナイザーとモデルの関係には、2 つの重要なポイントがあります: 1. テキスト入力を伴うすべてのニューラル・ネットワークはトークナイザーとペアになっており、トークナイザーなしでは使用できません。2. 特定のタスクでモデルの精度を再現するには、モデルのトレーニング中に使用されたものと同じトークナイザーを使用することが不可欠です。
そのため、HuggingFace Hub のほぼすべてのモデル・リポジトリーには、トークナイザー・ファイル (tokenizer.json
、vocab.txt
、merges.txt
など) も含まれています。
一連の数字を文字列に変換することをデトークン化と呼びます。デトークナイザーは、他の LLM チャットモデルと同様にトークン辞書をトークナイザーと共有することも、異なる辞書を使用することもできます。例えば、異なるソース言語とターゲット言語を扱う翻訳モデルでは、多くの場合、別々の辞書が必要になります。
テキスト分類、名前付きエンティティーの認識、質問への回答、特徴抽出などの一部のタスクでは、トークナイザーのみが必要です。一方、テキスト生成、チャット、翻訳、抽象要約などのタスクでは、トークナイザーとデトークナイザーの両方が必要です。
OpenVINO トークナイザーを取得#
OpenVINO トークナイザー Python ライブラリーを使用すると、HuggingFace トークナイザーを OpenVINO モデルに変換できます。必要な依存関係をすべてインストールするには、pip install openvino-tokenizers[transformers]
を使用します。
%pip install -Uq pip
%pip install --pre -Uq openvino-tokenizers[transformers] --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly
%pip install "torch>=2.1" --extra-index-url https://download.pytorch.org/whl/cpu
Note: you may need to restart the kernel to use updated packages. ERROR: pip's dependency resolver does not currently take into account all the packages that are installed.This behaviour is the source of the following dependency conflicts. openvino-dev 2024.2.0 requires openvino==2024.2.0, but you have openvino 2024.4.0.dev20240712 which is incompatible. openvino-genai 2024.3.0.0.dev20240712 requires openvino_tokenizers~=2024.3.0.0.dev, but you have openvino-tokenizers 2024.4.0.0.dev20240712 which is incompatible. Note: you may need to restart the kernel to use updated packages. Looking in indexes: https://pypi.org/simple, https://download.pytorch.org/whl/cpu
Requirement already satisfied: torch>=2.1 in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (2.3.1+cpu)
Requirement already satisfied: filelock in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from torch>=2.1) (3.15.4)
Requirement already satisfied: typing-extensions>=4.8.0 in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from torch>=2.1) (4.12.2)
Requirement already satisfied: sympy in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from torch>=2.1) (1.13.0)
Requirement already satisfied: networkx in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from torch>=2.1) (3.1)
Requirement already satisfied: jinja2 in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from torch>=2.1) (3.1.4)
Requirement already satisfied: fsspec in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from torch>=2.1) (2024.5.0)
Requirement already satisfied: MarkupSafe>=2.0 in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from jinja2->torch>=2.1) (2.1.5)
Requirement already satisfied: mpmath<1.4,>=1.1.0 in /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages (from sympy->torch>=2.1) (1.3.0)
Note: you may need to restart the kernel to use updated packages.
from pathlib import Path
tokenizer_dir = Path("tokenizer/")
model_id = "TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T"
CLI ツールを使用して HuggingFace Hub からトークナイザーを変換#
最初の方法は、OpenVINO トークナイザーにバンドルされている CLI ユーティリティーを使用することです。--with-detokenizer
フラグを使用して、出力にデトークナイザー・モデルを追加します。--clean-up-tokenization-spaces=False
を設定することで、デトークナイザーがコード生成モデルの出力を正しくデコードすることを保証します。--trust-remote-code
フラグは、trust_remote_code=True
を AutoTokenizer.from_pretrained
コンストラクターに渡すのと同じように機能します。
!convert_tokenizer $model_id --with-detokenizer -o $tokenizer_dir
Loading Huggingface Tokenizer... Converting Huggingface Tokenizer to OpenVINO... Saved OpenVINO Tokenizer: tokenizer/openvino_tokenizer.xml, tokenizer/openvino_tokenizer.bin Saved OpenVINO Detokenizer: tokenizer/openvino_detokenizer.xml, tokenizer/openvino_detokenizer.bin ⚠️ If you have any problems with the command above on MacOS, try to install tbb.
結果として、2 つの OpenVINO モデルが作成されます: openvino_tokenizer
と openvino_detokenizer
。どちらも、他の OpenVINO モデルと同様に、read_model
、compile_model
、save_model
を使用して操作できます。
Python API を使用して HuggingFace Hub からトークナイザーを変換#
もう一つの方法は、HuggingFace hf_tokenizer
オブジェクトを convert_tokenizer
関数に渡すことです:
from transformers import AutoTokenizer
from openvino_tokenizers import convert_tokenizer
hf_tokenizer = AutoTokenizer.from_pretrained(model_id)
ov_tokenizer, ov_detokenizer = convert_tokenizer(hf_tokenizer,
with_detokenizer=True)
ov_tokenizer, ov_detokenizer
(<Model: 'tokenizer'
inputs[
<ConstOutput: names[string_input] shape[?] type: string>
]
outputs[
<ConstOutput: names[input_ids] shape[?,?] type: i64>,
<ConstOutput: names[attention_mask] shape[?,?] type: i64>
]>,
<Model: 'detokenizer' inputs[
<ConstOutput: names[Parameter_22] shape[?,?] type: i64>
]
outputs[
<ConstOutput: names[string_output] shape[?] type: string>
]>)
これにより、OpenVINO モデル・オブジェクトが取得されます。変換されたトークナイザーを後で再利用するには、save_model
を使用します:
from openvino import
save_model save_model(ov_tokenizer, tokenizer_dir / "openvino_tokenizer.xml")
save_model(ov_detokenizer, tokenizer_dir / "openvino_detokenizer.xml")
トークナイザーを使用するには、変換されたモデルをコンパイルし、文字列のリストを入力します。すべてのオリジナル・トークナイザーが入力として複数の文字列 (バッチとも呼ばれます) をサポートしているわけではないことに注意してください。この制限は、結果として得られるすべての数値シーケンスが同じ長さを維持する必要があることから生じます。これを解決するには、短いトークン化された文字列に追加されるパディングトークンを指定する必要があります。元のトークナイザーでパディングトークンが決定されない場合、OpenVINO トークナイザーはデフォルトでパディングに
from openvino import compile_model
tokenizer, detokenizer = compile_model(ov_tokenizer), compile_model(ov_detokenizer)
test_strings = ["Test", "strings"]
token_ids = tokenizer(test_strings)["input_ids"]
print(f"Token ids: {token_ids}")
detokenized_text = detokenizer(token_ids)["string_output"]
print(f"Detokenized text: {detokenized_text}")
Token ids: [[ 1 4321]
[ 1 6031]]
Detokenized text: ['Test' 'strings']
変換された (デトークナイザー) トークナイザーの結果を元のものと比較することができます。
hf_token_ids = hf_tokenizer(test_strings).input_ids
print(f"Token ids: {hf_token_ids}")
hf_detokenized_text = hf_tokenizer.batch_decode(hf_token_ids)
print(f"Detokenized text: {hf_detokenized_text}")
Token ids: [[1, 4321], [1, 6031]]
2024-07-13 01:17:56.121802: I tensorflow/core/util/port.cc:110] oneDNN custom operations are on.You may see slightly different numerical results due to floating-point round-off errors from different computation orders.To turn them off, set the environment variable TF_ENABLE_ONEDNN_OPTS=0. 2024-07-13 01:17:56.157863: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags. 2024-07-13 01:17:56.747281: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
Detokenized text: ['<s> Test', '<s> strings']
OpenVINO トークナイザーを使用したテキスト生成パイプライン#
OpenVINO トークナイザーと最小限の依存関係を使用してテキスト生成パイプラインを構築します。OpenVINO モデルを取得するには、Optimum ライブラリーを使用します。最新バージョンでは、いわゆるステートフル・モデルを取得できます。
オリジナルの TinyLlama-1.1B-intermediate-step-1431k-3T
モデルは 4.4Gb です。ネットワークとディスクの使用量を削減するため、int8
に圧縮された変換モデルを読み込みます。元の変換コマンドはコメントアウトされています。
model_dir = Path(Path(model_id).name)
if not model_dir.exists():
# 元のモデルを変換
# %pip install -U "git+https://github.com/huggingface/optimum-intel.git" "nncf>=2.8.0" onnx
# %optimum-cli export openvino -m $model_id --task text-generation-with-past $model_dir
# すでに変換されたモデルをロード
from huggingface_hub import hf_hub_download
hf_hub_download(
"chgk13/TinyLlama-1.1B-intermediate-step-1431k-3T",
filename="openvino_model.xml",
local_dir=model_dir,
)
hf_hub_download(
"chgk13/TinyLlama-1.1B-intermediate-step-1431k-3T",
filename="openvino_model.bin",
local_dir=model_dir,
)
openvino_model.xml: 0%| | 0.00/2.93M [00:00<?, ?B/s]
openvino_model.bin: 0%| | 0.00/1.10G [00:00<?, ?B/s]
import numpy as np
from tqdm.notebook import trange
from pathlib import Path
from openvino_tokenizers import add_greedy_decoding
from openvino_tokenizers.constants import EOS_TOKEN_ID_NAME
from openvino import Core
core = Core()
# LLM 上に貪欲復号サブグラフを追加して、最も可能性の高いトークンを出力として取得
ov_model = add_greedy_decoding(core.read_model(model_dir / "openvino_model.xml"))
compiled_model = core.compile_model(ov_model)
infer_request = compiled_model.create_infer_request()
infer_request
オブジェクトは、モデルの状態 (計算を減らすことで推論を高速化するキー値のキャッシュ) を制御します。複数の推論要求を作成でき、各要求は異なる個別の状態を維持します。
text_input = ["Quick brown fox jumped"]
model_input = {name.any_name: output for name, output in tokenizer(text_input).items()}
if "position_ids" in (input.any_name for input in infer_request.model_inputs):
model_input["position_ids"] = np.arange(model_input["input_ids"].shape[1], dtype=np.int64)[np.newaxis, :]
# ビームサーチなし、idx を 0 に設定
model_input["beam_idx"] = np.array([0], dtype=np.int32)
# 文末トークンは、モデルがテキスト生成の終了を意味する
# トークナイザー/デトークナイザー ov.Model オブジェクトの rt_info から EOS トークン ID を読み取り
eos_token = ov_tokenizer.get_rt_info(EOS_TOKEN_ID_NAME).value
tokens_result = np.array([[]], dtype=np.int64)
# 推論前にモデル内の KV キャッシュをリセット
infer_request.reset_state()
max_infer = 10
for _ in trange(max_infer):
infer_request.start_async(model_input)
infer_request.wait()
# 最初の推論で最後のトークンの予測を取得
output_token = infer_request.get_output_tensor().data[:, -1:]
tokens_result = np.hstack((tokens_result, output_token))
if output_token[0, 0] == eos_token:
break
# 新しい推論のための入力を準備
model_input["input_ids"] = output_token
model_input["attention_mask"] = np.hstack((model_input["attention_mask"].data, [[1]]))
model_input["position_ids"] = np.hstack(
(
model_input["position_ids"].data,
[[model_input["position_ids"].data.shape[-1]]],
)
)
text_result = detokenizer(tokens_result)["string_output"]
print(f"Prompt:\n{text_input[0]}")
print(f"Generated:\n{text_result[0]}")
0%| | 0/10 [00:00<?, ?it/s]
Prompt: Quick brown fox jumped
Generated:
over the fence.
トークナイザーをモデルにマージ#
tensorflow-text
のようなパッケージは、テキスト処理をモデルに直接統合する利便性があり、配布と利用の両方を合理化します。同様に、OpenVINO トークナイザーを使用すると、変換されたトークナイザーとモデルを組み合わせたモデルを作成できます。すべてのシナリオがこの恩恵を受けるわけではないことに注意してください。前述のテキスト生成の例のように、トークナイザーが 1 回使用され、モデルが複数回推論される場合は、推論中に不要なトークン化とデトークン化のサイクルが発生しないように、別個の (デトークナイザー) トークナイザーとモデルを維持することが推奨されます。逆に、トークナイザーとモデルの両方が各パイプライン推論で 1 回使用される場合、マージによってワークフローが簡素化され、中間オブジェクトの作成を回避できます:
OpenVINO Python API では、推論中に share_inputs
オプションを使用することでこれを回避できますが、モデルが推論されるたびに開発者による追加入力が必要になります。モデルとトークナイザーを組み合わせると、メモリー管理が簡素化されます。
model_id = "mrm8488/bert-tiny-finetuned-sms-spam-detection"
model_dir = Path(Path(model_id).name)
if not model_dir.exists(): %pip install -qU git+https://github.com/huggingface/optimum-intel.git onnx
!optimum-cli export openvino --model $model_id --task text-classification $model_dir
!convert_tokenizer $model_id -o $model_dir
huggingface/tokenizers: The current process just got forked, after parallelism has already been used.Disabling parallelism to avoid deadlocks... To disable this warning, you can either: - Avoid using tokenizers before the fork if possible - Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Note: you may need to restart the kernel to use updated packages.
huggingface/tokenizers: The current process just got forked, after parallelism has already been used.Disabling parallelism to avoid deadlocks... To disable this warning, you can either: - Avoid using tokenizers before the fork if possible - Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
2024-07-13 01:18:19.229824: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
/opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/.venv/lib/python3.8/site-packages/diffusers/utils/outputs.py:63: UserWarning:
torch.utils._pytree._register_pytree_node is deprecated.Please use torch.utils._pytree.register_pytree_node instead.
torch.utils._pytree._register_pytree_node(
Framework not specified.Using pt to export the model.Using framework PyTorch: 2.3.1+cpu
Overriding 1 configuration item(s)
- use_cache -> False
['input_ids', 'attention_mask', 'token_type_ids']
Detokenizer is not supported, convert tokenizer only.
huggingface/tokenizers: The current process just got forked, after parallelism has already been used.Disabling parallelism to avoid deadlocks... To disable this warning, you can either: - Avoid using tokenizers before the fork if possible - Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Loading Huggingface Tokenizer...
Converting Huggingface Tokenizer to OpenVINO...
Saved OpenVINO Tokenizer: bert-tiny-finetuned-sms-spam-detection/openvino_tokenizer.xml, bert-tiny-finetuned-sms-spam-detection/openvino_tokenizer.bin
from openvino import Core, save_model
from openvino_tokenizers import connect_models
core = Core()
text_input = ["Free money!!!"]
ov_tokenizer = core.read_model(model_dir / "openvino_tokenizer.xml")
ov_model = core.read_model(model_dir / "openvino_model.xml")
combined_model = connect_models(ov_tokenizer, ov_model)
save_model(combined_model, model_dir / "combined_openvino_model.xml")
compiled_combined_model = core.compile_model(combined_model)
openvino_output = compiled_combined_model(text_input)
print(f"Logits: {openvino_output['logits']}")
Logits: [[ 1.2007061 -1.4698029]]
まとめ#
OpenVINO トークナイザーは、テキスト処理操作を OpenVINO エコシステムに統合します。このライブラリーにより、HuggingFace トークナイザーを OpenVINO モデルに変換できるようになり、さまざまな環境にわたってディープラーニング・パイプラインを効率的にデプロイできるようになります。トークナイザーとモデルを組み合わせることは、メモリー管理を簡素化するだけでなく、モデルの使用とデプロイを合理化するのに役立ちます。