トランスフォーマーと OpenVINO™ による多言語書籍の調整

この Jupyter ノートブックはオンラインで起動でき、ブラウザーのウィンドウで対話型環境を開きます。ローカルにインストールすることもできます。次のオプションのいずれかを選択します。

このノートブックでは、OpenVINO™ フレームワークを使用して、パイプラインの最も計算コストがかかる部分 (文からベクトルを取得する) を高速化する方法を示します。






  • requests - 本を入手する

  • pysbd - 文を分割する

  • transformers[torch] および openvino_dev - 文の埋め込みを取得する

  • seaborn - アライメント行列を視覚化する

  • ipywidgets - ノートブックに HTML と JS の出力を表示する


%pip install -q --extra-index-url https://download.pytorch.org/whl/cpu requests pysbd transformers[torch] "openvino>=2023.1.0" matplotlib seaborn ipywidgets


最初のステップは、作業に使用する本を入手することです。このノートブックでは、レオ・トルストイの『アンナ・カレーニナ』の英語版とドイツ語版を使用します。テキストは Project Gutenberg サイトから入手できます。著作権法は複雑で国によって異なるため、お住まいの国で書籍が法的に入手可能かどうかを確認してください。詳細については、Project Gutenberg の権限、ライセンス、およびその他の一般的なリクエストのページを参照してください。

Project Gutenberg の検索ページで書籍を検索し、各書籍の ID を取得します。テキストを取得するには、ID を Gutendex API に渡します。

import requests

def get_book_by_id(book_id: int, gutendex_url: str = "https://gutendex.com/") -> str:
    book_metadata_url = gutendex_url + "/books/" + str(book_id)
    request = requests.get(book_metadata_url, timeout=30)

    book_metadata = request.json()
    text_format_key = "text/plain"
    text_plain = [k for k in book_metadata["formats"] if k.startswith(text_format_key)]
    book_url = book_metadata["formats"][text_plain[0]]
    return requests.get(book_url).text

en_book_id = 1399
de_book_id = 44956

anna_karenina_en = get_book_by_id(en_book_id)
anna_karenina_de = get_book_by_id(de_book_id)


The Project Gutenberg eBook of Anna Karenina

This ebook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this ebook or online
at www.gutenberg.org. If you are not located in the United States,
you will have to check the laws of the country where you are located
before using this eBook.

Title: Anna Karenina

Author: graf Leo Tolstoy

Translator: Constance Garnett

Release date: July 1, 1998 [eBook #1399]
                Most recently updated: April 9, 2023

Language: English



 by Leo Tolstoy

 Translated by Constance Garnett




Chapter 1

Happy families are all alike; every unhappy family is unhappy in its
own way.

Everything was in confusion in the Oblonskys’ house. The wife had
discovered that the husband was carrying on an intrigue with a French
girl, who had been a governess in their family, and she had announced
to her husband that she could not go on living in the same house with
him. This position of affairs had now lasted three days, and not only
the husband and wife themselves, but all the me


'ufeffThe Project Gutenberg eBook of Anna Karenina

Title: Anna Karenina

Author: graf Leo Tolstoy

Translator: Constance Garnett

Release date: July 1, 1998 [eBook #1399]

Language: English

*** START OF THE PROJECT GUTENBERG EBOOK ANNA KARENINA ***

PART ONE

Chapter 1

Happy families are all alike; every unhappy family is unhappy in its own way.

Everything was in confusion in the Oblonskys' house. The wife had discovered that the husband was carrying on an intrigue with a French girl, who had been a governess in their family, and she had announced to her husband that she could not go on living in the same house with him. This position of affairs had now lasted three days, and not only the husband and wife themselves, but all the me'
'The Project Gutenberg EBook of Anna Karenina, 1. Band, by Leo N. Tolstoi

Title: Anna Karenina, 1. Band

Author: Leo N. Tolstoi

Release Date: February 18, 2014 [EBook #44956]

Language: German

*** START OF THIS PROJECT GUTENBERG EBOOK ANNA KARENINA, 1. BAND ***

Erster Teil.

1.

Alle glücklichen Familien sind einander ähnlich; jede unglücklich'



Yes, Alabin was giving a dinner on glass tables, and the tables sang, Il mio tesoro—not Il mio tesoro though, but something better, and there were some sort of little decanters on the table, and they were women, too,” he remembered.

テキストをクリーンアップして正規化しない限り、パイプラインの次のステージを完了することは困難です。形式が異なる場合があるため、このステージでは手動作業が必要です。例えば、ドイツ語版のメインコンテンツは *       *       *       *       * で囲まれているため、これらのアスタリスクが最初に出現する前と最後に出現した後はすべて削除しても安全です。

ヒント: 一般的な欠陥を除去するテキスト・クリーニング・ライブラリーがあります。テキストのソースが分かっている場合は、そのソース用に設計されたライブラリー (gutenberg_cleaner など) を探すことができます。これらのライブラリーは手動作業を軽減し、プロセスを自動化することもできます。

import re
from contextlib import contextmanager
from tqdm.auto import tqdm

start_pattern_en = r"\nPART ONE"
anna_karenina_en = re.split(start_pattern_en, anna_karenina_en)[1].strip()

anna_karenina_en = anna_karenina_en.split(end_pattern_en)[0].strip()
start_pattern_de = "*       *       *       *       *"
anna_karenina_de = anna_karenina_de.split(start_pattern_de, maxsplit=1)[1].strip()
anna_karenina_de = anna_karenina_de.rsplit(start_pattern_de, maxsplit=1)[0].strip()
anna_karenina_en = anna_karenina_en.replace("\r\n", "\n")
anna_karenina_de = anna_karenina_de.replace("\r\n", "\n")


chapter_pattern_en = r"Chapter \d?\d"
chapter_1_en = re.split(chapter_pattern_en, anna_karenina_en)[1].strip()
chapter_pattern_de = r"\d?\d.\n\n"
chapter_1_de = re.split(chapter_pattern_de, anna_karenina_de)[1].strip()


def remove_single_newline(text: str) -> str:
    return re.sub(r"\n(?!\n)", " ", text)

def unify_quotes(text: str) -> str:
    return re.sub(r"['\"»«“”]", '"', text)

def remove_markup(text: str) -> str:
    text = text.replace(">=", "").replace("=<", "")
    return re.sub(r"_\w|\w_", "", text)

クリーニング機能を単一のパイプラインに結合します。tqdm ライブラリーは、実行の進行状況を追跡するの使用されます。進行状況インジケーターが必要ない場合は、コンテキスト・マネージャーを定義して、オプションで進行状況インジケーターを無効にします。

disable_tqdm = False

def disable_tqdm_context():
    global disable_tqdm
    disable_tqdm = True
    disable_tqdm = False

def clean_text(text: str) -> str:
    text_cleaning_pipeline = [
    progress_bar = tqdm(text_cleaning_pipeline, disable=disable_tqdm)
    for clean_func in progress_bar:
        text = clean_func(text)
    return text

chapter_1_en = clean_text(chapter_1_en)
chapter_1_de = clean_text(chapter_1_de)
テキストを文に分割するのは、テキスト処理において困難な作業です。この問題は文境界の曖昧さの解消と呼ばれ、ヒューリスティックまたはマシンラーニング・モデルを使用して解決できます。このノートブックでは、テキストを文に分割するルールが言語によって異なる可能性があるため、pysbd ライブラリーのセグメンターを使用します。セグメンターは ISO 言語コードで初期化されます。

ヒント: Gutendex から取得した book_metadata には言語コードも含まれており、パイプラインのこの部分の自動化が可能になります。

import pysbd

splitter_en = pysbd.Segmenter(language="en", clean=True)
splitter_de = pysbd.Segmenter(language="de", clean=True)

sentences_en = splitter_en.segment(chapter_1_en)
sentences_de = splitter_de.segment(chapter_1_de)

len(sentences_en), len(sentences_de)
(32, 34)


次のステップは、文章をベクトル表現に変換することです。BERT などのトランスフォーマー・エンコーダー・モデルは高品質の埋め込みを提供しますが、速度が低下する可能性があります。さらに、モデルは選択した両方の言語をサポートする必要があります。言語ペアごとに個別のモデルをトレーニングするとコストがかかる可能性があるため、複数の言語で同時に事前トレーニングされたモデルが多数あります。例えば、次のとおりです。

LaBSE は、Language-agnostic BERT Sentence Embedding の略で、109 以上の言語をサポートします。BERT モデルと同じアーキテクチャーを持っていますが、翻訳ペアに対して同一の埋め込みを生成する別のタスクでトレーニングされています。


そのため、LaBSE はここでのタスクに最適な選択肢となり、さまざまな言語ペアで再利用しても良好な結果が得られます。

from typing import List, Union, Dict
from transformers import AutoTokenizer, AutoModel, BertModel
import numpy as np
import torch
from openvino.runtime import CompiledModel as OVModel
import openvino as ov

model_id = "rasa/LaBSE"
pt_model = AutoModel.from_pretrained(model_id)
tokenizer = AutoTokenizer.from_pretrained(model_id)

モデルには、last_hidden_statepooler_output という 2 つの出力があります。埋め込みを生成するには、特別な [CLS] トークンに対応する last_hidden_state の最初のベクトル、または 2 番目の入力のベクトル全体のいずれかを使用できます。通常は 2 番目のオプションが使用されますが、このタスクでは最初のオプションもうまく機能するため、最初のオプションを使用します。さまざまな出力を自由に試して、最適な出力を見つけてください。

def get_embeddings(
    sentences: List[str],
    embedding_model: Union[BertModel, OVModel],
) -> np.ndarray:
    if isinstance(embedding_model, OVModel):
        embeddings = [
            embedding_model(tokenizer(sent, return_tensors="np").data)[
            for sent in tqdm(sentences, disable=disable_tqdm)
        return np.vstack(embeddings)
        embeddings = [
            embedding_model(**tokenizer(sent, return_tensors="pt"))[
            for sent in tqdm(sentences, disable=disable_tqdm)
        return torch.vstack(embeddings)

embeddings_en_pt = get_embeddings(sentences_en, pt_model)
embeddings_de_pt = get_embeddings(sentences_de, pt_model)
LaBSE モデルは非常に大きく、一部のハードウェアでは推論が遅くなる可能性があるため、OpenVINO を使用して最適化しましょう。モデル変換 API は、PyTorch/Transformers モデル・オブジェクトとモデル入力に関する追加情報を受け入れます。PyTorch は推論中にモデル実行グラフを動的に構築するため、モデル実行グラフをトレースするには example_input が必要です。変換されたモデルは、使用する前に Core オブジェクトを使用してターゲットデバイス用にコンパイルする必要があります。

# 3 inputs with dynamic axis [batch_size, sequence_length] and type int64
inputs_info = [([-1, -1], ov.Type.i64)] * 3
ov_model = ov.convert_model(
    example_input=tokenizer("test", return_tensors="pt").data,

core = ov.Core()
compiled_model = core.compile_model(ov_model, "CPU")

embeddings_en = get_embeddings(sentences_en, compiled_model)
embeddings_de = get_embeddings(sentences_de, compiled_model)
インテル® Core™ i9-10980XE CPU 上で、PyTorch モデルは 1 秒あたり 40 ~ 43 文を処理しました。OpenVINO による最適化後、処理速度は 1 秒あたり 56 ~ 60 文に向上しました。わずか数行のコードでパフォーマンスが約 40% 向上します。モデルの予測が許容範囲内にあるか確認してみましょう。

np.all(np.isclose(embeddings_en, embeddings_en_pt.detach().numpy(), atol=1e-3))



  1. 文の各ペア間の文の類似性を計算します。
  2. 類似度行列の行と列の値を、[-1, 1] などの指定された範囲に変換します。
  3. 値をしきい値と比較して、0 と 1 のブール行列を取得します。
  4. 両方の行列に 1 を含む文のペアは、モデルに従って整列される必要があります。


import seaborn as sns
import matplotlib.pyplot as plt


def transform(x):
    x = x - np.mean(x)
    return x / np.var(x)

def calculate_alignment_matrix(
    first: np.ndarray, second: np.ndarray, threshold: float = 1e-3
) -> np.ndarray:
    similarity = first @ second.T  # 1
    similarity_en_to_de = np.apply_along_axis(transform, -1, similarity)  # 2
    similarity_de_to_en = np.apply_along_axis(transform, -2, similarity)  # 2

    both_one = (similarity_en_to_de > threshold) * (
        similarity_de_to_en > threshold
    )  # 3 and 4
    return both_one

threshold = 0.028

alignment_matrix = calculate_alignment_matrix(embeddings_en, embeddings_de, threshold)
alignment_matrix_pt = calculate_alignment_matrix(

graph, axis = plt.subplots(1, 2, figsize=(10, 5), sharey=True)

for matrix, ax, title in zip(
    (alignment_matrix, alignment_matrix_pt), axis, ("OpenVINO", "PyTorch")
    plot = sns.heatmap(matrix, cbar=False, square=True, ax=ax)
    plot.set_title(f"Sentence Alignment Matrix {title}")
    if title == "OpenVINO":


アライメント行列を視覚化して比較した後、Python でのアライメントの操作をより便利にするため、それらを辞書に変換しましょう。辞書のキーは英語の文番号、値はドイツ語の文番号のリストになります。

def make_alignment(alignment_matrix: np.ndarray) -> Dict[int, List[int]]:
    aligned = {idx: [] for idx, sent in enumerate(sentences_en)}
    for en_idx, de_idx in zip(*np.nonzero(alignment_matrix)):
    return aligned

aligned = make_alignment(alignment_matrix)
{0: [0],
 1: [2],
 2: [3],
 3: [4],
 4: [5],
 5: [6],
 6: [7],
 7: [8],
 8: [9, 10],
 9: [11],
 10: [13, 14],
 11: [15],
 12: [16],
 13: [17],
 14: [],
 15: [18],
 16: [19],
 17: [20],
 18: [21],
 19: [23],
 20: [24],
 21: [25],
 22: [26],
 23: [],
 24: [27],
 25: [],
 26: [28],
 27: [29],
 28: [30],
 29: [31],
 30: [32],
 31: [33]}


英語の文 #14 がドイツ語の文にマッピングされていないなど、結果の配置にはいくつかのギャップがあります。これについて考えられる理由は次のとおりです。

  1. 他の文には同等の文はありませんが、そのような場合、モデルは正しく機能しています。

  2. この文には別の言語の同等の文がありますが、モデルはそれを識別できませんでした。しきい値が高すぎるか、モデルの感度が十分でない可能性があります。これに対処するには、しきい値を下げるか、別のモデルを試してください。

  3. 文には別の言語の同等のテキスト部分があります。これは、文の分割が細かすぎるか粗すぎることを意味します。この問題を解決するには、テキストのクリーニングと分割のステップを調整してみてください。

  4. 2 と 3 の組み合わせ。モデルの感度とテキストの準備手順の両方を調整する必要があります。

この問題に対処するもう 1 つの解決策は、ヒューリスティックを適用することです。ご覧のとおり、英語の文 13 はドイツ語の 17、15 から 18 に対応しています。おそらく、英語の文 14 はドイツ語の文 17 または 18 の一部です。モデルを使用して類似性を比較することで、最適なアライメントを選択できます。


最終的な調整を評価し、パイプラインの結果を改善する最適な方法を選択するため、HTML と JS を使用して対話型のテーブルを作成します。

from IPython.display import display, HTML
from itertools import zip_longest
from io import StringIO

def create_interactive_table(
    list1: List[str], list2: List[str], mapping: Dict[int, List[int]]
) -> str:
    def inverse_mapping(mapping):
        inverse_map = {idx: [] for idx in range(len(list2))}

        for key, values in mapping.items():
            for value in values:

        return inverse_map

    inversed_mapping = inverse_mapping(mapping)

    table_html = StringIO()
        '<table id="mappings-table"><tr><th>Sentences EN</th><th>Sentences DE</th></tr>'
    for i, (first, second) in enumerate(zip_longest(list1, list2)):
        if i < len(list1):
            table_html.write(f'<td id="list1-{i}">{first}</td>')
        if i < len(list2):
            table_html.write(f'<td id="list2-{i}">{second}</td>')


    hover_script = (
    <script type="module">
      const highlightColor = '#0054AE';
      const textColor = 'white'
      const mappings = {
        'list1': """
        + str(mapping)
        + """,
        'list2': """
        + str(inversed_mapping)
        + """

      const table = document.getElementById('mappings-table');
      let highlightedIds = [];

      table.addEventListener('mouseover', ({ target }) => {
        if (target.tagName !== 'TD' || !target.id) {

        const [listName, listId] = target.id.split('-');
        const mappedIds = mappings[listName]?.[listId]?.map((id) => `${listName === 'list1' ? 'list2' : 'list1'}-${id}`) || [];
        const idsToHighlight = [target.id, ...mappedIds];

        setBackgroud(idsToHighlight, highlightColor, textColor);
        highlightedIds = idsToHighlight;

      table.addEventListener('mouseout', () => setBackgroud(highlightedIds, ''));

      function setBackgroud(ids, color, text_color="unset") {
        ids.forEach((id) => {
            document.getElementById(id).style.backgroundColor = color;
            document.getElementById(id).style.color = text_color
    return table_html.getvalue()
html_code = create_interactive_table(sentences_en, sentences_de, aligned)
パイプラインがドイツ語のテキストを完全にクリーンアップしていないため、2 番目の文が -- のみで構成されるなどの問題が発生していることが分かります。良い点としては、ドイツ語翻訳の分割された文が単一の英語の文と正しく並んでいることです。全体として、パイプラインはすでにうまく機能していますが、まだ改善の余地があります。

将来使用できるように OpenVINO モデルをディスクに保存します。

from openvino.runtime import serialize

ov_model_path = "ov_model/model.xml"
serialize(ov_model, ov_model_path)

ディスクからモデルを読み取るには、Core オブジェクトの read_model メソッドを使用します。

ov_model = core.read_model(ov_model_path)


パイプラインの最も計算が複雑な部分である、埋め込みの取得を高速化する方法を見てみましょう。OpenVINO を使用する場合、モデルを読み込んだ後にコンパイルする必要があるのに疑問を持つかもしれません。これには主に2つの理由があります。

  1. さまざまなデバイスとの互換性。モデルは、CPU、GPU、GNA などの特定のデバイス上で実行するようにコンパイルできます。各デバイスは、異なるデータタイプを操作し、異なる機能をサポートして、特定のコンピューティング・モデルのニューラル・ネットワークを変更することでパフォーマンスを向上させることができます。OpenVINO を使用すると、それぞれのハードウェアに最適化されたネットワークのコピーを複数保存する必要がなくなります。ユニバーサルな OpenVINO モデル表現で十分です。
  2. さまざまなシナリオに合わせた最適化。例えば、1 つのシナリオでは、モデル推論の開始と終了の間の時間を最小限に抑えることが優先されます (レイテンシー指向の最適化)。ここでは、モデルが 1 秒あたりにどれだけのテキストを処理できるか (スループット指向の最適化) のほうが重要です。

スループットが最適化されたモデルを取得するには、コンパイル中にパフォーマンスのヒントを構成として渡します。次に、OpenVINO は、利用可能なハードウェアでの実行に最適なパラメーターを選択します。

from typing import Any

compiled_throughput_hint = core.compile_model(

ハードウェアの使用率をさらに最適化するため、推論モードを同期 (Sync) から非同期 (Async) に変更しましょう。同期 API は使い始めるのが簡単かもしれませんが、運用コードでは非同期 (コールバック・ベース) API を使用することを推奨します。これは、任意の数の要求に対するフロー制御を実装する最も一般的でスケーラブルな方法です。

非同期モードで作業するには、次の 2 つを定義する必要があります。

  1. AsyncInferQueue をインスタンス化して、推論要求を設定できます。

  2. 出力要求が実行され、その結果が処理された後に呼び出されるコールバック関数を定義します。


def get_embeddings_async(sentences: List[str], embedding_model: OVModel) -> np.ndarray:
    def callback(infer_request: ov.InferRequest, user_data: List[Any]) -> None:
        embeddings, idx, pbar = user_data
        embedding = infer_request.get_output_tensor(0).data[0, 0]
        embeddings[idx] = embedding

    infer_queue = ov.AsyncInferQueue(embedding_model)

    embedding_dim = (
    embeddings = np.zeros((len(sentences), embedding_dim))

    with tqdm(total=len(sentences), disable=disable_tqdm) as pbar:
        for idx, sent in enumerate(sentences):
            tokenized = tokenizer(sent, return_tensors="np").data

            infer_queue.start_async(tokenized, [embeddings, idx, pbar])


    return embeddings


注: より正確なベンチマークを取得するには、ベンチマーク Python ツールを使用します。

number_of_chars = 15_000
more_sentences_en = splitter_en.segment(clean_text(anna_karenina_en[:number_of_chars]))
import pandas as pd
from time import perf_counter

benchmarks = [
    (pt_model, get_embeddings, "PyTorch"),
    (compiled_model, get_embeddings, "OpenVINO\nSync"),
        "OpenVINO\nThroughput Hint\nAsync",

number_of_sentences = 100
benchmark_data = more_sentences_en[: min(number_of_sentences, len(more_sentences_en))]

benchmark_results = {name: [] for *_, name in benchmarks}

benchmarks_iterator = tqdm(benchmarks, leave=False, disable=disable_tqdm)
for model, func, name in benchmarks_iterator:
    printable_name = name.replace("\n", " ")
    benchmarks_iterator.set_description(f"Run benchmark for {printable_name} model")
    for run in tqdm(
        range(10 + 1), leave=False, desc="Benchmark Runs: ", disable=disable_tqdm
        with disable_tqdm_context():
            start = perf_counter()
            func(benchmark_data, model)
            end = perf_counter()
        benchmark_results[name].append(len(benchmark_data) / (end - start))

benchmark_dataframe = pd.DataFrame(benchmark_results)[1:]
cpu_name = core.get_property("CPU", "FULL_DEVICE_NAME")

plot = sns.barplot(benchmark_dataframe, errorbar="sd")
    ylabel="Sentences Per Second", title=f"Sentence Embeddings Benchmark\n{cpu_name}"
perf_ratio = benchmark_dataframe.mean() / benchmark_dataframe.mean()[0]

インテル® Core™ i9-10980XE プロセッサーでは、OpenVINO モデルは元の PyTorch モデルと比較して 1 秒あたり 45% 多くの文を処理しました。スループットヒント付きの非同期モードを使用すると、パフォーマンスが 3.21 倍 (または 221%) 向上します。
