Stable-Zephyr-3b と OpenVINO を使用した LLM 搭載チャットボット

急速に進化する人工知能 (AI) の世界では、チャットボットは企業が顧客とのやり取りを強化し、業務を効率化する強力なツールとなっています。大規模言語モデル (LLM) は、人間の言語を理解して生成できる人工知能システムです。ディープラーニング・アルゴリズムと大量のデータを使用して言語のニュアンスを学習し、一貫性のある適切な応答を生成します。適切なインテントベースのチャットボットは注文管理、FAQ、ポリシーに関する質問などの基本的なワンタッチの質問に答えることができますが、LLM チャットボットはより複雑なマルチタッチの質問に対処できます。LLM を使用すると、チャットボットがコンテキスト記憶を通じて、人間と同様の会話形式でサポートを提供できるようになります。言語モデルの機能を活用することで、チャットボットはますますインテリジェントになり、驚くべき正確さで人間の言語を理解して応答できるようになりました。

Stable Zephyr 3B は 30 億のパラメーターを持つモデルであり、多くの LLM 評価ベンチマークで優れた結果を示し、比較的小規模な多くの一般的なモデルを上回りました。HugginFaceH4 の Zephyr 7B トレーニング・パイプラインに触発されたこのモデルは、公開されているデータセット、Direct Preference Optimization (DPO) を使用した合成データセット、MT BenchAlpaca Benchmark に基づくこのモデルの評価を組み合わせてトレーニングされました。モデルの詳細については、モデルカードをご覧ください。

このチュートリアルでは、OpenVINO ツールキットを使用してモデルを最適化および実行する方法について説明します。変換ステップとモデルのパフォーマンス評価の便宜上、LLM のパフォーマンスを推定する統一されたアプローチを提供する llm_bench ツールを使用します。 これは Optimum-Intel が提供するパイプラインに基づいており、ほぼ同じコードを使用して Pytorch および OpenVINO モデルのパフォーマンスを推定できます。また、モデルキャッシュ状態を処理する可能性を提供する、モデルをステートフルにする方法についても説明します。




from pathlib import Path
import sys

genai_llm_bench = Path("openvino.genai/llm_bench/python")

if not genai_llm_bench.exists():
    !git clone

%pip install -q "transformers>=4.36.0"
%pip install -q --extra-index-url -r ./openvino.genai/llm_bench/python/requirements.txt
%pip uninstall -q -y openvino openvino-dev openvino-nightly
%pip install -q openvino-nightly
%pip install -q gradio
モデルを OpenVINO 中間表現 (IR) に変換し、NNCF を使用してモデルの重みを INT4 に圧縮

llm_bench は、LLMS を Optimum-Intel と互換性のある OpenVINO IR 形式に変換するスクリプトを提供します。また、NNCF を使用してモデルの重みを INT8 または INT4 精度に圧縮することもできます。INT4 で重み圧縮を有効にするには、--compress_weights 4BIT_DEFAULT 引数を使用します。重み圧縮アルゴリズムは、モデルの重みを圧縮することを目的としており、大規模言語モデル (LLM) など、重みのサイズがアクティベーションのサイズよりも相対的に大きい大規模モデルのモデル・フットプリントとパフォーマンスを最適化するために使用できます。INT8 圧縮と比較して、INT4 圧縮はパフォーマンスをさらに向上させますが、予測品質は若干低下します。

model_path = Path("stable-zephyr-3b/pytorch/dldt/compressed_weights/OV_FP16-4BIT_DEFAULT")

convert_script = genai_llm_bench / ""

!python $convert_script --model_id stabilityai/stable-zephyr-3b --precision FP16 --compress_weights 4BIT_DEFAULT --output stable-zephyr-3b --force_convert
Stable Zephyr はデコーダーのみのトランスフォーマー・モデルであり、自己回帰方式でトークンごとにテキストを生成します。出力側は自動回帰であるため、出力トークンの非表示状態は、その後の生成ステップごとに計算されると同じままになります。したがって、新しいトークンを生成するたびに再計算するのは無駄であるように思えます。生成プロセスを最適化し、メモリーをさらに効率良く使用するため、Hugging Face Transformers API は、入力と出力で use_cache=True パラメーターと past_key_values 引数を使用してモデル状態を外部にキャッシュするメカニズムを提供します。キャッシュを使用すると、モデルは計算後に非表示の状態を保存します。モデルは各タイムステップで最後に生成された出力トークンのみを計算し、保存された出力トークンを非表示のトークンに再利用します。これにより、変圧器モデルの生成の複雑さが \(O(n^3)\) から \(O(n^2)\) に軽減されます。このオプションを使用すると、モデルは前のステップの非表示状態 (キャッシュされたアテンション・キーと値) を入力として取得し、さらに現在のステップの非表示状態を出力として提供します。これは、次のすべての反復では、前のステップから取得した新しいトークンと、次のトークン予測を取得するためのキャッシュされたキー値のみを提供するだけで十分であることを意味します。

最新の LLM のようにモデルサイズが大きくなると、アテンション・ブロックの数と過去のキー値テンソルのサイズもそれぞれ増加します。推論サイクルでキャッシュ状態をモデルの入力と出力として処理する方法は、特にチャットボットのシナリオなどで長い入力シーケンスを処理する場合、メモリー制限のあるシステムのボトルネックになる可能性があります。OpenVINO は、モデル内にキャッシュ処理ロジックを保持しながら、モデルからキャッシュテンソルを含む入力と対応する出力を削除する変換を提案します。キャッシュを非表示にすると、デバイスに適した表現でキャッシュ値を保存および更新できるようになります。メモリーの消費を削減し、さらにモデルのパフォーマンスを最適化するのに役立ちます。

変換ステップで --stateful フラグを使用してステートフル変換を追加することで、モデルのパフォーマンスを推測できます。

stateful_model_path = Path("stable-zephyr-3b-stateful/pytorch/dldt/compressed_weights/OV_FP16-4BIT_DEFAULT")

!python $convert_script --model_id stabilityai/stable-zephyr-3b --precision FP16 --compress_weights 4BIT_DEFAULT --output stable-zephyr-3b-stateful --force_convert --stateful
Optimum Intel によるモデルの使用

Optimum-Intel API でモデルを実行するには、次の手順が必要です。

  1. モデルの正規化された構成を登録します。
  2. from_pretrained メソッドを使用して OVModelForCausalLM クラスのインスタンスを作成し、モデルへのパスと stateful フラグを指定します。

モデルテキスト生成インターフェイスは変更されずに残り、テキスト生成プロセスは ov_model.generate メソッドを実行し、トークナイザーによってエンコードされたテキストを入力として渡すことで開始されます。このメソッドは、トークナイザーを使用してデコードする必要がある生成されたトークン ID のシーケンスを返します。

from utils.ov_model_classes import register_normalized_configs
from import OVModelForCausalLM
from transformers import AutoConfig

# Load model into Optimum Interface

ov_model = OVModelForCausalLM.from_pretrained(stateful_model_path, compile=False, config=AutoConfig.from_pretrained(stateful_model_path, trust_remote_code=True), stateful=True)


これで、モデルの使用する準備が整いました。実際に動作を見てみましょう。モデルとのやり取りには Gradio インターフェースを使用します。チャット・メッセージ・ボックスにテキストメッセージを入力し、[Submit] ボタンをクリックして会話を開始します。テキスト生成の品質を制御できるいくつかのパラメーターがあります。

  • Temperature は、AI が生成したテキストの創造性のレベルを制御するために使用されるパラメーターです。temperature を調整することで、AI モデルの確率分布に影響を与え、テキストの焦点を絞ったり、多様にしたりできます。
    次の例を考えてみましょう。AI モデルは次のトークンの確率で “猫は ____ です” という文を完成させる必要があります。
    遊んでいる: 0.5
    眠っている: 0.25
    食べている: 0.15
    ドライブしている: 0.05
    飛んでいる: 0.05
    • 低温 (例: 0.2): AI モデルはより集中的かつ決定的になり、最も高い確率のトークン (“遊んでいる”など) を選択します。

    • 中温 (例: 1.0): AI モデルは創造性と集中力のバランスを維持し、大きな偏りのない確率に基づいてトークン (“遊んでいる”、“眠っている”、“食べている”など) を選択します。

    • 高温 (例: 2.0): AI モデルはより冒険的になり、確率の低いトークン (“ドライブしている” や “飛んでいる”など) を選択する可能性が高くなります。

  • Top-p (核サンプリングとも呼ばれる) は、累積確率に基づいて AI モデルによって考慮される、トークンの範囲を制御するために使用されるパラメーターです。top-p 値を調整することで、AI モデルのトークン選択に影響を与え、焦点を絞ったり、多様性を持たせることができます。猫と同じ例を使用して、次の top_p 設定を検討してください。

    • 低 top_p (例: 0.5): AI モデルは、累積確率が最も高いトークン (“遊んでいる”など) のみを考慮します。

    • 中 top_p (例: 0.8): AI モデルは、累積確率がより高いトークン (“遊んでいる”、“眠っている”、“食べている”など) を考慮します。

    • 高 top_p (例: 1.0): I モデルは、確率の低いトークン (“ドライブしている” や “飛んでいる”) を含むすべてのトークンを考慮します。

  • Top-k は、人気のあるサンプリング戦略です。累積確率が確率 P を超える最小の単語のセットから選択する Top-p と比較して、Top-k サンプリングでは、確率の最も高い K 個の単語がフィルタリングされ、確率の集合が K 個の次の単語のみに再分配されます。猫の例では、k=3 の場合、“遊んでいる”、“眠っている”、および“食べている”だけが次の単語として考慮されます。

  • Repetition Penalty は、入力プロンプトを含むテキスト内でのトークンの出現頻度に基づいてトークンにペナルティーを与えるのに役立ちます。5 回出現したトークンは、1 回しか出現しなかったトークンよりも重いペナルティーが課されます。値 1 はペナルティーがないことを意味し、値が 1 より大きい場合、トークンの反復が妨げられます。


import torch
from threading import Event, Thread
from uuid import uuid4
from typing import List, Tuple
import gradio as gr
from transformers import (

model_name = "stable-zephyr-3b"

tok = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe.  Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.
If a question does not make any sense or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.\

model_configuration = {
    "start_message": f"<|system|>\n {DEFAULT_SYSTEM_PROMPT }<|endoftext|>",
    "history_template": "<|user|>\n{user}<|endoftext|><|assistant|>\n{assistant}<|endoftext|>",
    "current_message_template": '<|user|>\n{user}<|endoftext|><|assistant|>\n{assistant}',
history_template = model_configuration["history_template"]
current_message_template = model_configuration["current_message_template"]
start_message = model_configuration["start_message"]
stop_tokens = model_configuration.get("stop_tokens")
tokenizer_kwargs = model_configuration.get("tokenizer_kwargs", {})

examples = [
    ["Hello there! How are you doing?"],
    ["What is OpenVINO?"],
    ["Who are you?"],
    ["Can you explain to me briefly what is Python programming language?"],
    ["Explain the plot of Cinderella in a sentence."],
    ["What are some common mistakes to avoid when writing code?"],
        "Write a 100-word blog post on “Benefits of Artificial Intelligence and OpenVINO“"

max_new_tokens = 256

class StopOnTokens(StoppingCriteria):
    def __init__(self, token_ids):
        self.token_ids = token_ids

    def __call__(
        self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs
    ) -> bool:
        for stop_id in self.token_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

if stop_tokens is not None:
    if isinstance(stop_tokens[0], str):
        stop_tokens = tok.convert_tokens_to_ids(stop_tokens)

    stop_tokens = [StopOnTokens(stop_tokens)]

def default_partial_text_processor(partial_text: str, new_text: str):
    helper for updating partially generated answer, used by de

      partial_text: text buffer for storing previosly generated text
      new_text: text update for the current step
      updated text string

    partial_text += new_text
    return partial_text

text_processor = model_configuration.get(
    "partial_text_processor", default_partial_text_processor

def convert_history_to_text(history: List[Tuple[str, str]]):
    function for conversion history stored as list pairs of user and assistant messages to string according to model expected conversation template
      history: dialogue history
      history in text format
    text = start_message + "".join(
                [history_template.format(num=round, user=item[0], assistant=item[1])]
            for round, item in enumerate(history[:-1])
    text += "".join(
                        num=len(history) + 1,
    return text

def user(message, history):
    callback function for updating user messages in interface on submit button click

      message: current message
      history: conversation history
    # Append the user's message to the conversation history
    return "", history + [[message, ""]]

def bot(history, temperature, top_p, top_k, repetition_penalty, conversation_id):
    callback function for running chatbot on submit button click

      history: conversation history
      temperature:  parameter for control the level of creativity in AI-generated text.
                    By adjusting the `temperature`, you can influence the AI model's probability distribution, making the text more focused or diverse.
      top_p: parameter for control the range of tokens considered by the AI model based on their cumulative probability.
      top_k: parameter for control the range of tokens considered by the AI model based on their cumulative probability, selecting number of tokens with highest probability.
      repetition_penalty: parameter for penalizing tokens based on how frequently they occur in the text.
      conversation_id: unique conversation identifier.


    # Construct the input message string for the model by concatenating the current system message and conversation history
    messages = convert_history_to_text(history)

    # Tokenize the messages string
    input_ids = tok(messages, return_tensors="pt", **tokenizer_kwargs).input_ids
    if input_ids.shape[1] > 2000:
        history = [history[-1]]
        messages = convert_history_to_text(history)
        input_ids = tok(messages, return_tensors="pt", **tokenizer_kwargs).input_ids
    streamer = TextIteratorStreamer(
        tok, timeout=30.0, skip_prompt=True, skip_special_tokens=True
    generate_kwargs = dict(
        do_sample=temperature > 0.0,
    if stop_tokens is not None:
        generate_kwargs["stopping_criteria"] = StoppingCriteriaList(stop_tokens)

    stream_complete = Event()

    def generate_and_signal_complete():
        genration function for single thread
        global start_time

    t1 = Thread(target=generate_and_signal_complete)

    # Initialize an empty string to store the generated text
    partial_text = ""
    for new_text in streamer:
        partial_text = text_processor(partial_text, new_text)
        history[-1][1] = partial_text
        yield history

def get_uuid():
    universal unique identifier for thread
    return str(uuid4())

with gr.Blocks(
    css=".disclaimer {font-variant-caps: all-small-caps;}",
) as demo:
    conversation_id = gr.State(get_uuid)
    gr.Markdown(f"""<h1><center>OpenVINO {model_name} Chatbot</center></h1>""")
    chatbot = gr.Chatbot(height=500)
    with gr.Row():
        with gr.Column():
            msg = gr.Textbox(
                label="Chat Message Box",
                placeholder="Chat Message Box",
        with gr.Column():
            with gr.Row():
                submit = gr.Button("Submit")
                stop = gr.Button("Stop")
                clear = gr.Button("Clear")
    with gr.Row():
        with gr.Accordion("Advanced Options:", open=False):
            with gr.Row():
                with gr.Column():
                    with gr.Row():
                        temperature = gr.Slider(
                            info="Higher values produce more diverse outputs",
                with gr.Column():
                    with gr.Row():
                        top_p = gr.Slider(
                            label="Top-p (nucleus sampling)",
                                "Sample from the smallest possible set of tokens whose cumulative probability "
                                "exceeds top_p. Set to 1 to disable and sample from all tokens."
                with gr.Column():
                    with gr.Row():
                        top_k = gr.Slider(
                            info="Sample from a shortlist of top-k tokens — 0 to disable and sample from all tokens.",
                with gr.Column():
                    with gr.Row():
                        repetition_penalty = gr.Slider(
                            label="Repetition Penalty",
                            info="Penalize repetition — 1.0 to disable.",
        examples, inputs=msg, label="Click on any example and press the 'Submit' button"

    submit_event = msg.submit(
        inputs=[msg, chatbot],
        outputs=[msg, chatbot],
    submit_click_event =
        inputs=[msg, chatbot],
        outputs=[msg, chatbot],
        cancels=[submit_event, submit_click_event],
    ) None, None, chatbot, queue=False)

