インテル® DAAL を使用した Python* ナイーブベイズ・アルゴリズムのパフォーマンス向上

この記事は、インテル® デベロッパー・ゾーンに公開されている「Using Intel® Data Analytics Acceleration Library to Improve the Performance of Naïve Bayes Algorithm in Python*」(https://software.intel.com/content/www/us/en/develop/articles/using-intel-data-analytics-acceleration-library-improve-performance-of-na-ve-bayes.html) の日本語参考訳です。

この記事の PDF 版はこちらからご利用になれます。

はじめに

Netflix は視聴者が興味を持ちそうな動画をお勧めし、Amazon は潜在的な顧客に適切な商品を提案し、Microsoft Outlook* はスパムメールを分類します。

それぞれ、どのようにしているのでしょうか? Netflix は、視聴履歴から顧客に動画を勧めています。Amazon は、顧客の閲覧および購入履歴データを使用して、顧客が興味を持ちそうな製品を提案しています。Microsoft は、膨大な量のメールを分析して、メールがジャンクメールやスパムメールかを特定しています。

Netflix、Amazon、および Microsoft は、顧客のニーズに応えるため、過去のデータを分析しています。ソーシャルメディアやインターネットで膨大な量のデータ (ビデオ、オーディオ、テキスト) が利用できるようになったことで、人々がどのように考え、行動し、社会や環境と向き合っているか理解するため、これらのビッグデータを扱う人的介入を最小限に抑えた効率良い方法が必要になり、マシンラーニングが注目されています¹。

この記事では、マシンラーニングとナイーブベイズ (NB) と呼ばれるマシンラーニングの手法/アルゴリズムにを説明します²。また、NB アルゴリズムのパフォーマンスを向上するインテル® データ・アナリティクス・アクセラレーション・ライブラリー (インテル® DAAL) についても述べます³。

マシンラーニングとは?

マシンラーニング (ML) は、データセットに基づく解析モデルの作成に使用されるデータ解析手法です。解析モデルは、新しいデータが供給されると、明示的なプログラミングなしで学習することができます。ML はかなり前から存在していましたが、最近になって次の理由からその有用性が証明されました。

ソーシャルメディアやインターネットで利用可能なデータの量と種類の増加
コンピューター・システムの性能の向上
データストレージの大容量化と低価格化

最も一般的なタイプの ML は、教師あり学習⁴ と教師なし学習⁵ です。

教師あり学習では、入力データのセットとラベル (既知の結果) のセットを使用してアルゴリズムをトレーニングします。アルゴリズムは、入力データの結果とラベルを比較するたびに学習し、マシンラーニング・モデルを調整します。分類は、教師あり学習と見なされます。

教師あり学習とは異なり、教師なし学習では、アルゴリズムが学習に使用できるラベルはありません。代わりに、入力データを調査して、自力でパターンを検出する必要があります。例えば、ある人物が世界のどの地域に属しているか分類するには、アルゴリズムは人口データを調査し、人種、宗教、言語などを特定する必要があります。

図 1: マシンラーニングの概略図

図 1 は、ML の仕組みの概略図です。最初に、トレーニング・データセットを使用して ML アルゴリズムをトレーニングして、ML モデルを作成します。ML モデルはテスト・データセットを処理して、最終的に結果を予測します。

次のセクションでは、教師あり学習アルゴリズムの 1 つである、ナイーブベイズ・アルゴリズムについて説明します。

ナイーブベイズ・アルゴリズム

ナイーブベイズ (NB) アルゴリズムは、ベイズの定理⁶ に基づく分類手法で、すべての特徴は互いに独立していると仮定します。

ベイズの定理は、次の式で表されます。

ここで、X と Y は特徴です。

P(Y|X) は、X が与えられたときの Y の確率です。
P(X|Y) は、Y が与えられたときの X の確率です。
P(Y) は、Y の事前確率です。
P(X) は、X の事前確率です。

この式² は、次のように書き換えることができます。

ここで、X = (x_1,x_2,…x_n) は n 個の特徴のベクトルを表します。

NB アルゴリズムは、メールのソート、ドキュメントの分類、スパムメールの検出など、一般的に使用されています。

図 2 は NB アルゴリズムの仕組みを示しています。

図 2: ナイーブベイズ・アルゴリズムを使用したマシンラーニングの図

図 2 から、トレーニング・データセットは、トレーニング・ラベルとトレーニング・データで構成されることが分かります。トレーニング・ラベルは、トレーニング・データの正しい出力です。分類器を作成には、この 2 つのセットが必要です。分類器を作成したら、評価のためテスト・データセットを分類器に供給します。

図 3: ナイーブベイズ・アルゴリズムを使用したスパムメールの検出

図 3 は、スパムメールを検出する NB アルゴリズムのフローです。メール分類器を作成するため、既知のスパムメールを NB アルゴリズムに供給します。分類器を作成したら、不明なメールをメールを分類器に供給してスパムかどうかチェックします。

NB の使用例

以下は、NB の使用例です。

NB のスピードを利用したリアルタイム予測
花の分類などのマルチクラス/多項分類
スパムメールの検出
テキストの分類

NB のメリットとデメリット

以下は、NB のメリットとデメリットです。

メリット

素早くモデルをトレーニングできる
マルチクラスの予測に優れている

デメリット

トレーニング・データセットにラベルが含まれていない場合、予測できない
大きなデータセットの処理に適していない
特徴/イベントは常に完全に独立しているわけではない

大きなデータセットでは、モデルのトレーニングに長い時間がかかります。特定のモデルでは、数週間、あるいは数カ月を要します。トレーニングの最適化を支援するため、インテル® DAAL が開発されました。