ディープラーニングの 4 つの強力な特性

この記事は、インテル® AI Blog に公開されている「Four Superpowers of Deep Learning」の日本語参考訳です。

私は、2019 年 9 月にマサチューセッツ州ケンブリッジで開催された MIT の 2019 EmTech カンファレンス (英語) に参加し、ステージ上で MIT Technology Review (英語) の CEO である Elizabeth Bramson-Boudreau 氏と大規模な展開に向けた人工知能 (AI) アプリケーションの進化について議論しました (イベントに参加されなかった方は、そのときの動画をこちらから (英語) ご覧いただけます)。AI とディープラーニング (DL) によって、すべてのテクノロジーと計算ワークロードが改善され強化されると私は確信しています。実際 DL は、組織が今日 AI を展開してワークフローを変換し、新しいイノベーションを開発する際に利用できる特性を備えています。この 4 つの「強力な特性」は、パターン認識、普遍近似、シーケンスマッピング、類似性に基づく生成です。

パターン認識

パターン認識とは、ノイズの多いデータからパターンを識別する機能です。この機能は、オブジェクト識別用の画像解析で優れたパフォーマンスを発揮しますが、その他のデータにも展開できます。不正検出などには長年従来のマシンラーニング手法が使用されてきましたが、パターンのリモート・インスタンスの識別ではディープラーニングが非常に強力です。過去数年間で、ディープラーニング手法とコンピューティングの進化によって、パターン認識手法は一部のアプリケーションにおいて人間の能力と同等かそれ以上に向上し、長年データ・サイエンティストが課題としてきた問題に対処する新しい方法が生まれました。

そのような課題の 1 つが感情の認識、または表情に基づく感情のリアルタイム認識です。この機能は、今日の業界でさまざまな方法で適用されています。一例として、重度の運動制限があるユーザーが顔の表情で車いすを操作できるようにする、電動車いすキットが挙げられます。ユーザーは 10 種類の表情を使用して電動車いすを制御できます。Hoobox Robotics (英語) が開発したこのプロジェクトは、3D カメラを使用してデータをストリーミングし、AI アルゴリズムがパターン認識によりデータを処理して、リアルタイムで車いすを制御します。エッジ側で高度な計算を行うことで、製品の使いやすさの鍵となる即応性を実現しています。

画像、文書、医療記録、農地調査など、膨大な量のデータがある場合、DL を適用してわずかなパターンを認識し、隠れた情報を抽出することができます。

普遍近似

ディープラーニングの 2 つ目の強力な特性は、普遍近似です。つまり、複雑なシステムを学習して、負荷が高く時間のかかる計算を、許容可能な精度を維持した推定値に置き換えることで効率を向上 (10 の 4 乗倍に) します。入力と出力の間の相関を学習することで、この手法は結果の予測を可能にし、わずかな計算時間と能力で、創薬における化合物の選別や飛行ルートの遅延の最小化など、さまざまな分野に適用できます。何であれ 10,000 倍に高速化できるものはすべて、ビジネスを変える可能性があります。

CERN (欧州原子核研究機構) は、この手法を大型ハドロン衝突型加速器 (LHC) の粒子加速器 (英語) に適用しました。今日、LHC は 25GB/秒の驚異的な速度でデータを生成します。この膨大な量のデータのモデル化、フィルター処理、および解析は、ディープラーニング・アルゴリズムに最適です。その一例が、衝突イベントのシミュレーションです。素粒子物理解析は複数のフェーズで行われ、各フェーズでさらに詳しく解析するデータを決定する必要があります。膨大な数のイベントをシミュレーションする必要があるため、イベントを保持するか、破棄するかをマイクロ秒で決定する必要があります。ディープラーニングは、再構成された粒子の特性を学習して複雑なシミュレーション・プロセスをバイパスできる可能性があるため、シミュレーションが現在よりも桁違いに高速になり、より短時間でより多くの科学的発見が得られる可能性があります。

アプリケーションに負荷の高い複雑な計算が含まれる場合、DL システムに入力から出力への変換を学習させます。学習が完了すると、DL 推論を使用して新しい入力を近似できるため、最大 1/10,000 の時間でかなり正確な推定が可能になります。

シーケンスマッピング

ディープラーニングの 3 つ目の強力な特性は、シーケンスマッピングです。この機能の最も顕著な例は、コンピューター・ベースの翻訳です。今日、我々は多くの言語をある程度正確にリアルタイムで翻訳することができます。最も可能性の高い出力シリーズを考慮しつつ、一連の単語、画像、またはその他のトークンを解釈し、新しいシーケンスに変換することで、シーケンスマッピングを多くのアプリケーションに適用できます。言語の場合、単語は一度に 1 語ずつ (書面または口頭で) 生成されるため、これは明らかです。直感的に、オリジナル言語用と翻訳ターゲット言語用の 2 つのニューラル・ネットワークの実装が考えられます。マッピングは、個々のサンプル (単語) 単位ではなく、オリジナル言語とターゲット言語のシーケンス全体 (文) で構築されます。

これは、潜在的なエラーを含むノイズの多いシーケンスを「クリーンアップ」し、ノイズのない適切なシーケンスを生成するためにも使用できます。例えば、一定のノイズを含む DNA 配列を読み取り、クリーンな DNA 配列を生成します。

文脈中の音声、財務時系列データ、または非構造化センサー入力のリアルタイム翻訳が必要な場合、DL を適用できます。

類似性に基づく生成

ディープラーニングの最後の強力な特性は、実際の出来事と非常によく似た新しい画像、音声、またはその他のデータを作成できることです。例えば、AI を使用して写実的なビデオを作成できます。同様の手法は、より有用な目的に適用できます。

ヘルスケアでは、MGH & BWH Center for Clinical Data Science (https://www.ccds.io/) が最近、まれな病理所見に欠ける不均衡データセットの問題 (英語) に対する安価なソリューションとして、敵対的生成ネットワーク (GAN) を使用して脳腫瘍の新しい MRI を作成しました。GAN は、トレーニング・セットと同じ統計で新しいデータを生成できます。GAN をトレーニングして合成異常 MRI を生成することで、データ・サイエンティストは腫瘍の分類を向上し、医師の時間を節約できました。

一例として、30 を超える言語とバリエーションで 180 種類以上の音声を使用して、テキストを人間のような音声に変換する、Google の高忠実度の音声合成が挙げられます。音声合成の画期的な研究である WaveNet (英語) を適用して、カスタマーサービスやデバイス・インタラクションなどを変えるリアルなインタラクションを生成します。

クリエイティブなビジネスでは、顧客との対話や製品イメージの向上に画像、音声、トレーニング・データの類似性に基づく生成を適用できます。

ここで紹介したディープラーニングの 4 つの強力な特性は、素晴らしいものですが、その潜在能力を最大限に引き出すには、適切な組織要素が必要です。その中には、AI により強化されたプラクティスの導入を支持し、初期の課題と実験に寛容な経営陣も含まれます。別の重要な要素として、質の高いデータも挙げられます。多くの場合、データを DL に適合させるには、データのキュレーション、クリーニング、ラベル付けが必要です。最後に、これらの強力な特性には、最先端の AI に対応するスキルとサポートを備えたデータ・サイエンティストが必要です。すべての業界の数え切れないほどのアプリケーションと使用法が AI により強化され、ディープラーニングの特性を最大限に活用して日常生活が向上する将来を楽しみにしています。