投機的サンプリング、KV キャッシュおよび OpenVINO™ によるテキスト生成#

この Jupyter ノートブックはオンラインで起動でき、ブラウザーのウィンドウで対話型環境を開きます。ローカルにインストールすることもできます。次のオプションのいずれかを選択します:

Google ColabGitHub

モデルのサイズが大きくなるにつれて、生成 AI の実装には大量の推論リソースが必要になります。これにより、プロンプトからの生成あたりのコストが増加するだけでなく、要求を処理するために使用される電力消費も増加します。

テキスト生成の推論の最適化は、コストと電力消費を削減するのに不可欠です。推論プロセスを最適化すると、テキスト生成に必要な時間とエネルギーを大幅に削減できます。これにより、ハードウェアとソフトウェア両面のコストと電力消費の削減につながります。さらに、推論の最適化により、テキスト生成の精度と生成速度が向上します。これにより、ユーザー・エクスペリエンスが向上し、テキスト生成タスクの効率が向上します。要約すると、テキスト生成の推論の最適化は、コストと電力消費を削減し、テキスト生成の精度と速度を向上するには不可欠です。

もう一つの必要な条件は、最適化が相互に互換性があることです。つまり、特定の最適化を実装しても、他の最適化が妨げられることはありません。全体の効率を損なうような “衝突” を引き起こすことなく大幅な高速化を実現できる最適化のレベルがいくつかあります。

この方法の詳細については、Chen 氏らの論文 (http://arxiv.org/abs/2302.01318) を参照してください。さらに、Leviathan 氏らによる投機的サンプリングの正当性の証明 (元の分布が保存されることを示す) があります (http://arxiv.org/abs/2211.17192)。

OpenVINO を使用した実装について説明したブログ記事は、openvino.ai でご覧いただけます。

目次:

必要条件#

最初に、OpenVINO 統合によって高速化された Hugging Face Optimum ライブラリーをインストールする必要があります。Hugging Face Optimum インテル API は、Hugging Face Transformers ライブラリーのモデルを OpenVINO™ IR 形式に変換および量子化できる高レベル API です。詳細については、Hugging Face Optimum インテルのドキュメントを参照してください。

トランスフォーマー (HuggingFace) やその他のモジュールもインストールする必要があります。

%pip install -Uq pip 
%pip uninstall -q -y optimum optimum-intel 
%pip install --pre -Uq openvino openvino-tokenizers[transformers] --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly 
%pip install -q --upgrade transformers "torch>=2.1" "gradio>=4.19" accelerate onnx ipywidgets "peft==0.6.2" --extra-index-url https://download.pytorch.org/whl/cpu 
%pip install -q "git+https://github.com/huggingface/optimum-intel.git"

推論デバイスの選択#

OpenVINO を使用して推論を実行するデバイスをドロップダウン・リストから選択します。

import ipywidgets as widgets 
import openvino as ov 

core = ov.Core() 

device = widgets.Dropdown( 
    options=core.available_devices + ["AUTO"], 
    value="CPU", 
    description="Device:", 
    disabled=False, 
) 

device
Dropdown(description='Device:', options=('CPU', 'GPU.0', 'GPU.1', 'AUTO'), value='CPU')

KV キャッシュのサポートにより、自己回帰および推測形式のサンプリングを作成#

テキスト生成は多くの場合、自己回帰方式で行われます。ここでは、コード内で KV キャッシュ (別名 Past Value Cache) をサポートします。貪欲なサンプリングを使用していることに注意してください。他のテキスト生成パラメーター (温度など) は調整しないため、推測的サンプリングの図はできるだけシンプルでわかりやすいものにしてください。

インポートの設定#

import time 
import numpy as np 
import gradio as gr

自己回帰サンプリングを準備#

def autoregressive_sampling_with_pkv(input, model, N=30): 
    input_ids, attention_mask = input.input_ids, input.attention_mask 
    seq_len = input_ids.shape[-1] 
    position_ids = np.arange(0, seq_len, dtype=np.int64).reshape([-1, seq_len]) 

    # 以降の推論ではトークンを 1 つずつ入力しますが、 
    # 最初の推論ではエンコードされたプロンプト全体を入力します 
    request = model.create_infer_request() 
    request.infer((input_ids, attention_mask, position_ids, np.array([0]))) 
    next_token = np.argmax(request.results["logits"][:, -1]).reshape([1]) 

    all_tokens = [] 
    all_tokens.extend(input_ids[0]) 
    all_tokens.append(next_token[0]) 

    while seq_len < N: 
        input_ids = next_token.reshape([1, 1]) 
        attention_mask = np.concatenate((attention_mask, np.array([1]).reshape([1, 1])), axis=1) 
        position_ids = np.array([attention_mask.shape[1]]).reshape([1, 1]) 

        request.infer((input_ids, attention_mask, position_ids, np.array([0]))) 
        next_token = np.argmax(request.results["logits"][:, -1]) 
        all_tokens.append(next_token) 
        seq_len += 1 

return all_tokens

推測サンプリングを準備#

  • ステップ 1: 投機的サンプリングでは、まずドラフトモデルから K 個のサンプルを (自己回帰方式で) 生成します。

  • ステップ 2: これらは、バッチサイズ K を使用してメインモデル (ステップ 2) を使用して調査する候補になります。

  • ステップ 3: K 個の予測トークンをそれぞれ調べ、トークンが異なる場合は停止し、メインモデルによって予測された最後のトークンを保持します。

  • ステップ 4: 異なるトークンのキーと値を削除して KV キャッシュを更新し、手順 1 を繰り返します。

def update_state(request, seq_len): 
    for state in request.query_state(): 
        old_seq_len = state.state.shape[2] 
        if seq_len >= old_seq_len: 
            continue 
        # 推論リクエスト後、キー/値の形状は [BATCH_SIZE、seq_len + K、vocab_size] になります。
        # 一致したトークンの数だけシーケンスの長さを増やし、 
        # 新しいシーケンスの長さに合わせて KV キャッシュをトリミングします 
        state.state = ov.Tensor(state.state.data[:, :, :seq_len]) 

def speculative_sampling_with_pkv(input, draft_model, main_model, K, N=30, **kwargs): 
    input_ids, attention_mask = input.input_ids, input.attention_mask 
    # seq_len キー/値の数またはすでに処理された入力トークンの数 
    seq_len = input_ids.shape[-1] 
    position_ids = np.arange(0, seq_len, dtype=np.int64).reshape([-1, seq_len]) 

    draft_request = draft_model.create_infer_request() 
    draft_request.infer((input_ids, attention_mask, position_ids, np.array([0]))) 

    main_request = main_model.create_infer_request() 
    main_request.infer((input_ids, attention_mask, position_ids, np.array([0]))) 
    first_token = np.argmax(main_request.results["logits"][:, -1]).reshape([1]) 

    all_tokens = [] 
    all_tokens.extend(input_ids[0]) 
    all_tokens.append(first_token[0]) 

    accum_draft_tokens = [] 
    while seq_len < N: 
        next_token = first_token 
        for i in range(K): 
            input_ids = next_token.reshape([1, 1]) 
            attention_mask = np.concatenate((attention_mask, np.array([1]).reshape([1, 1])), axis=1) 
            position_ids = np.array([attention_mask.shape[1]]).reshape([1, 1]) 

            draft_request.infer((input_ids, attention_mask, position_ids, np.array([0]))) 
            next_token = np.argmax(draft_request.results["logits"][:, -1]) 
            accum_draft_tokens.append(next_token) 

        # メインモデルは K 個のトークンも与え、 
        # 同じ最初のトークンをメインモデルに与え、最後のトークンは与えない。 
        input_ids = np.concatenate((first_token.reshape([1]), accum_draft_tokens[:-1])).reshape([1, -1]) 
        attention_mask = np.ones((1, seq_len + K)) 
        position_ids = np.arange(seq_len, seq_len + K, dtype=np.int64).reshape([1, -1]) 

        main_request.infer((input_ids, attention_mask, position_ids, np.array([0]))) 
        next_tokens = np.argmax(main_request.results["logits"], axis=-1)[0] 

        # 最初から一致しない場合は、コンテキストは 1 つの要素に対してのみ拡張されます。 
        # 要素が一致する場合は、コンテキストは K 個の要素に拡張されます。 
        for disagree_idx, (t1, t2) in enumerate(zip(accum_draft_tokens, next_tokens)): 
            if t1 != t2: 
                break 

        first_token = next_tokens[disagree_idx] 
        all_tokens.extend(next_tokens[: disagree_idx + 1]) 
        seq_len += disagree_idx + 1 

        # 意見の相違が始まる位置に応じてキー/値をカット 
        update_state(draft_request, seq_len) 
        update_state(main_request, seq_len) 

        attention_mask = np.ones((1, seq_len)) 
        accum_draft_tokens = [] 

all_tokens.extend(accum_draft_tokens) 
return all_tokens

メイン生成関数#

モデルのダウンロードと変換#

Optimum Intel を使用すると、Hugging Face ハブ から最適化されたモデルをロードし、Hugging Face API を使用して OpenVINO ランタイムで推論を実行するパイプラインを作成できます。投機的デコードでは状態を手動で更新する必要があるため、Openvino 推論 API を直接使用し、モデル変換にのみ最適化します。> Llama-2-7b-chat-hf をダウンロードするには、ライセンス契約に同意する必要があります。Hugging Face Hub の登録ユーザーである必要があります。HuggingFace モデルカードにアクセスし、利用規約をよく読み、同意ボタンをクリックしてください。以下のコードを実行するには、アクセストークンを使用する必要があります。アクセストークンの詳細については、ドキュメントのこのセクションを参照してください。

from pathlib import Path 

main_model_id = "meta-llama/Llama-2-7b-chat-hf" 
main_model_path = Path("Llama-2-7b-chat-hf") 
draft_model_id = "TinyLlama/TinyLlama-1.1B-Chat-v1.0" 
draft_model_path = Path("TinyLlama-1.1B-Chat-v1.0") 

from transformers import AutoTokenizer 

main_tokenizer = AutoTokenizer.from_pretrained(main_model_id) 
draft_tokenizer = AutoTokenizer.from_pretrained(draft_model_id)
# 投機的サンプリングが機能するには、メイン・トークナイザーとドラフト・トークナイザーの両方が同一である必要があります。 
token_test_txt = "text to ensure tokenizers work the same, as of 2024" 
tokens_1 = draft_tokenizer(token_test_txt, return_tensors="pt").input_ids 
tokens_2 = main_tokenizer(token_test_txt, return_tensors="pt").input_ids 

assert all((tokens_1 - tokens_2)[0] == 0)
if not main_model_path.exists():
     !optimum-cli export openvino --model $main_model_id --weight-format fp16 $main_model_path 
if not draft_model_path.exists():
     !optimum-cli export openvino --model $draft_model_id --weight-format fp16 $draft_model_path

OpenVINO 推論パイプラインを使用して直接推論します

core = ov.Core() 
draft_ov_model = core.read_model(draft_model_path / "openvino_model.xml") 
draft_model = core.compile_model(draft_ov_model, device_name="CPU") 

main_ov_model = core.read_model(main_model_path / "openvino_model.xml") 
main_model = core.compile_model(main_ov_model, device_name="CPU")
def main( 
    prompt: str, 
    n_tokens_to_generate: int = 75, 
    K: int = 5, 
    seed: int = 5555, 
):     # seed numpy rng 
    np.random.seed(seed) 
    tokenized = main_tokenizer(prompt, return_tensors="pt") 

    def run_autoregressive_sampling_fn(decode_fn, tokenized, **kwargs): 
        start = time.perf_counter() 
        output_ids = decode_fn(tokenized, **kwargs) 
        text = main_tokenizer.decode(output_ids, skip_special_tokens=True) 
        elapsed_time = time.perf_counter() - start 
        return text, elapsed_time 

    def run_speculative_sampling_fn(decode_fn, input_ids, **kwargs): 
        start = time.perf_counter() 
        output_ids = decode_fn(input_ids, **kwargs) 
        text = main_tokenizer.decode(output_ids, skip_special_tokens=True) 
        elapsed_time = time.perf_counter() - start 
        return text, elapsed_time 

    autoregressive_text, autoregressive_time = run_autoregressive_sampling_fn( 
        autoregressive_sampling_with_pkv, 
        tokenized,
        model=main_model, 
        N=n_tokens_to_generate, 
    ) 

    speculative_text, speculative_time = run_speculative_sampling_fn( 
        speculative_sampling_with_pkv, 
        tokenized, 
        main_model=main_model, 
        draft_model=draft_model, 
        N=n_tokens_to_generate, 
        K=K, 
    ) 

    # gradio での出力結果をフォーマット 
    out = "\n" + "Autoregressive Decode" + "\n" + "---------------------" + "\n" 
    out = out + f"Time = {autoregressive_time:.2f}s" + "\n" + f"Text = {autoregressive_text}" + "\n" 
    out = out + "\n" + "Speculative Decode" + "\n" + "------------------" + "\n" 
    out = out + f"Time = {speculative_time:.2f}s" + "\n" + f"Text = {speculative_text}" 
    return out
res = main("Alan Turing was a", n_tokens_to_generate=100)
print(res)
2024-04-17 10:21:41.642283: I tensorflow/core/util/port.cc:111] oneDNN custom operations are on.You may see slightly different numerical results due to floating-point round-off errors from different computation orders.To turn them off, set the environment variable TF_ENABLE_ONEDNN_OPTS=0.
2024-04-17 10:21:41.644834: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2024-04-17 10:21:41.677055: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered 
2024-04-17 10:21:41.677093: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered 
2024-04-17 10:21:41.677119: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered 
2024-04-17 10:21:41.683198: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2024-04-17 10:21:41.683977: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-04-17 10:21:42.477656: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
Autoregressive Decode 
--------------------- 
Time = 44.39s 
Text = Alan Turing was a British mathematician, computer scientist, and codebreaker who played a pivotal role in cracking the German Enigma code during World War II. He was also a pioneer in the field of artificial intelligence and made significant contributions to the development of computer science. 
Turing was born on June 23, 1912, in London, England.He was educated at Cambridge University, where he earned a degree in mathematics in 

Speculative Decode 
------------------ 
Time = 22.96s 
Text = Alan Turing was a British mathematician, computer scientist, and codebreaker who played a pivotal role in cracking the German Enigma code during World War II.He was also a pioneer in the field of artificial intelligence and made significant contributions to the development of computer science.Turing was born on June 23, 1912, in London, England. He was educated at Cambridge University, where he earned a degree in mathematics in 1
with gr.Blocks() as demo: 
    gr.Markdown( 
        f""" 
        # Speculative Sampling Demo 
        ## The output will show a comparison of Autoregressive Sampling vs Speculative Sampling 
        - Main Model: {main_model_id} 
        - Draft Model: {draft_model_id} 
        - K = 5 
        """ 
    ) 
    with gr.Row(): 
        inp = gr.Textbox( 
            "Alan Turing was a", 
            placeholder="THIS CANNOT BE EMPTY", 
            label="Input Prompt", 
        ) 
        out = gr.Textbox(label="Output") 

    btn = gr.Button("Run") 
    btn.click(fn=main, inputs=inp, outputs=out) 

demo.launch()