この記事は、インテルの The Parallel Universe Magazine 26 号に収録されている、ビッグデータのアルゴリズムと可視化のパフォーマンス向上と可能性についてのケーススタディーに関する章を抜粋翻訳したものです。
MeritData, Inc. は、ビッグデータ解析技術およびサービス分野における中国の大手プロバイダーです。MeritData の Tempo* ビッグデータ・プラットフォームは、大手の電力、製造、金融、グローバル企業、クラウド・サービス・プロバイダーで広く採用されています。ハイパフォーマンス・コンピューティング技術、最先端のデータ解析アルゴリズム、高次元の視覚化、独創的なデータ可視化言語を融合することで、MeritData は顧客がデータの価値を発見・利用できるようにし、最終的にデータ処理、データマイニング、データ可視化ソリューションにより価値を創造できるように支援します。
データを素早く正確に解析するため、MeritData はアルゴリズムを基本的性質、計算、プログラミングの観点から最適化する必要がありました。インテルは MeritData のアルゴリズム・エンジニアと協力して、複数のデータマイニング・アルゴリズムの最適化に取り組みました。エクストリーム・ラーニング・マシン (ELM: Extreme Learning Machines) や内製の L1/2 スパース反復アルゴリズム、線形回帰 (LR) はすべて、インテル® Data Analytics Acceleration Library (インテル® DAAL) とインテル® マス・カーネル・ライブラリー (インテル® MKL) により最適化されました。その結果、パフォーマンスが平均で 3 倍~ 14 倍向上しました。
ビッグデータ解析プラットフォームで求められるスピード
ハードウェアと情報技術の開発は、ビッグデータの新しい時代を切り開きました。グローバルデータの飛躍的な成長により、ビッグデータ解析とビッグデータ・サービスの市場も拡大しています。ほぼすべての大企業がビッグデータ解析にリソースを投資しており、長年にわたって蓄積されたデータと新たに生成されるデータを統合し、素早く正確にデータの価値を引き出したいと考えています。
業界最大手の大規模データ解析技術プロバイダーとして、MeritData は顧客のあらゆるデータを格納・処理できる Tempo* ビッグデータ解析プラットフォームを提供しています。データを効率良く解析し、より多くのデータをより迅速に処理するためには、MeritData はアルゴリズムのパフォーマンスを極限まで向上する必要がありました。
「インテルのエンジニアと緊密に協力して、我々はビッグデータ解析プラットフォーム (Tempo*) のアルゴリズムの最適化にインテル® DAAL とインテル® MKL を採用しました。その結果、パフォーマンスと顧客のエクスペリエンスが大幅に向上しました。インテルの協力に大変感謝しています。今後も、インテルと協力していきたいと思います。」
MeritData
データマイニング・アルゴリズム・アーキテクト
Jin Qiang 氏
アルゴリズムのモデル化は、入力データに対し繰り返し計算を行う計算負荷の高い処理を支援します。データ量が少ない場合、通常実行時間は問題になりません。しかし、データ量の増加に伴って、一部のアルゴリズムは実行時間が急激に増加し、顧客の要件を満たすことができなくなります。
高まるデータマイニングへの要求に応えるため、MeritData はインテルと緊密に協力し、インテル® MKL とインテル® DAAL を利用して、Tempo* のコア・アルゴリズム・ライブラリーを高速化し、顧客に強力なデータ解析ソリューションを提供することができました。オリジナルのハードウェアに依存しない実装と比較すると、新しい実装は、平均で 3 倍のパフォーマンス向上と最大 14 倍のスピードアップにより、膨大な量の データ処理とモデル化を素早く正確に解析でき、顧客はデータの価値を迅速に発見・利用できるようにな りました。
ソリューション: Tempo* ビッグデータ解析プラットフォーム
インテル® MKL とインテル® DAAL をベースに、インテルは MeritData と協力して、インテル® アーキテクチャー上でコア・アルゴリズム・ライブラリーを高速化する Tempo* ビッグデータ解析プラットフォームの作成に取り組みました。クラウド・コンピューティング・アーキテクチャーを利用することで、チームは高速なモデル化と解析を提供するビッグデータ解析ソリューションを実装しました。同時に、分野とデータ解析レベルの異なる顧客が、データの価値、データ可視化、詳細な解析を達成できるように、統合サービスの提供を実現しました。
Tempo* プラットフォームのシステム・アーキテクチャーには、データ・アクセス・レイヤー、解析とモデル化、結果表示、アクセスレイヤーが含まれており、統合されたクラウド・サービス・アクセス、クラウド・リソース・スケジューリング、クラウド・プラットフォーム管理を提供します。