
先端テクノロジーを活用した社会課題の解決を目指すイノラボでは、2020年2月に、建設機械の自動化開発支援サービス提供を始めました。本プロジェクトでは、人工知能(AI)スタートアップ企業・株式会社アラヤ様とタッグを組み、AIの要素技術である深層強化学習、模倣学習を活用。操作難易度の高い建機の自動操縦を目指すメーカーに対し、機械設計分野で実績のある高速シミュレーター「Vortex Studio」の導入支援、AIアルゴリズムの構築支援を行っていきます。
ビジネスでの応用例があまりなく、活用が難しいとされる深層強化学習のテクノロジーを、ビジネス応用までどう結び付けたのか。プロジェクトをリードした飯田倫崇が、そのチャレンジと今後の展望を語ります。

飯田 倫崇
機械学習ソリューションアーキテクト
AIスタートアップ企業と、深層強化学習のビジネス活用プロジェクトがスタート
深層強化学習をビジネスにどう応用するかは、難題の一つといわれてきました。
深層強化学習は、与えられた状況に応じて「とるべき最適な行動」を試行錯誤し、学習する機械学習手法の一つです。すばらしいテクノロジーではありますが、ビジネス現場では、古典的なアルゴリズムで自動化できる領域が多い。ルールベースの機械制御では、「正解・不正解」がアルゴリズムによってきっちりと定められており、ロボットたちがミスなく作業を進めてくれる。わざわざ深層強化学習の「試行錯誤しながら自ら学ぶ」技術を活用する必要がないのです。
さらに、深層強化学習には膨大な“試行錯誤”をさせる必要があり、学びに最適なシミュレーション環境が必須になります。どんな分野で、どんなシミュレーション環境を組み合わせれば、深層強化学習の真価を発揮できるのか。これは個人的にも、興味深いテーマでした。
そんな中、本プロジェクトが動き出したきっかけは、かねてからお付き合いのあったAIスタートアップ企業・株式会社アラヤ様とのディスカッションでした。アラヤ様は深層強化学習を使った自律AI(人が教えなくても自ら状況を判断し、与えられたタスクを遂行できる技術・プロダクト)の開発を主力事業の一つとして取り組んでいます。
その頃はちょうど、囲碁AI・AlphaGo(アルファ碁)(ディープマインド社)が人類に初めて勝利したことで話題になってから数年が経っていました。AIにとってもっとも難しいゲームとされてきた囲碁領域で成功を収めたことで、曖昧な判断を必要とするビジネス領域でも、深層強化学習を活用できる可能性を知らしめた注目の応用例でした。
「一緒に面白いプロジェクトをやりませんか」と話をしている中で、「高速シミュレーター『Vortex Studio』を使って深層強化学習をしたいというお客様がいる」という声が出てきた。そこから、プロジェクトが一気に動き始めました。
Vortex Studioは機械操作のシミュレーターソフトウエアです(カナダに本社を置くCM Labs Simulationsが開発・提供。ISIDが2017年より取扱を開始)。Vortex Studioは、建機業界で30年以上の利用実績があり、かたい地面、ぬかるみのある場所などさまざまな環境での作業のシミュレーションを高速で行うことができる。深層強化学習のビジネス応用では、実環境でAIが想定しない環境に直面しても適切な行動がとれるよう、実環境をできるだけうまくモデル化したシミュレーションソフトを導入することが非常に重要です。深層強化学習はゲーム分野ではかなり浸透していますが、ゲーム空間上ではうまくいっても、リアル空間に持ってくると、物理現象とのギャップが大きくうまく動かなくなる、という課題が多くありました。
しかし、Vortex Studioであれば、土や風といった自然とのインタラクションを含めた機械の動作シミュレーションができるため、その課題を解決できる可能性があります。しかも、高速物理演算ができるため、シミュレーション環境での試行錯誤が効率的にできるようになる。最適なシミュレーション環境とマッチングできたことで、「これなら、ビジネス応用へ動き出せる」とプロジェクトがスタートしました。
商業用シミュレーターと強化学習アルゴリズムをつなぐ新たなチャレンジ
建築業界をはじめ、ものづくりの現場では、労働人口減、高齢化による技術継承の問題が山積しています。今回のプロジェクトでは、アラヤ様の深層強化学習の制御アルゴリズムと、Vortex Studioの高速シミュレーションの構築環境をセットで提供し、導入に向けたコンサルティングも行っています。まだまだ実装への道のりは長いものの、建機の自動化を進めたいメーカーに対して、研究開発コストの軽減に貢献できるのではないかと考えています。
サービス提供に結びつけられた理由には、Vortex Studioと、強化学習アルゴリズムの開発キット「OpenAI Gym」のインターフェースをつなぎ合わせたこと。そして、深層強化学習の最先端モデル(State of the Art)の適応検証ができたことがあります。
もともと、Vortex Studioのような商業用シミュレーターは、AI導入を想定して作られていない場合が多いです。API機能がなかったところに、AI開発のツールキットをつないで動かせるようにしたことで、深層強化学習・模倣学習のテスト環境が整い、試行錯誤できるようになった。これは、ソフトウェアエンジニアリングという意味で非常に良いチャレンジだったと思っています。
難しかったのは、深層強化学習の「報酬」と、ちょうどいい難易度の「タスク」をどう設定するのか、という点です。
深層強化学習では、一定のルール内でできたことを「報酬」として認識させると自力でどんどん学んでいってくれます。ただ、難しすぎると学びが進まない。従来の制御アルゴリズムではできない複雑で曖昧な、抽象的な問題を解きつつも、難易度が高すぎないタスク設定とは何か。とても頭を悩ませました。
現在は、深層強化学習を導入すれば効率性が上がるタスクに当たっていますが、まだまだ制御ルールで解けるものも多い。今後の課題でもあります。
深層強化学習の活用方法に、模索は続いていく
深層強化学習のビジネス応用例やサービスは、まだほとんど世に出ていません。今回、アカデミアから自立したビジネス活用ツールとして世の中に発表できた点を、非常にうれしく光栄に思っています。
一方で、イノラボから発信する以上は、「そんな使い方があったか!」とみんなが驚くような、深層強化学習とビジネスの組み合わせを提案したい。「もっとこんな風にも使えるんじゃないか」と妄想を広げられるヒントを提示できれば理想的です。
これまでの機械学習は、正解・不正解のデータを膨大に集め、「何が正解か」を教え込まないといけませんでした。しかし深層強化学習は、ある程度のルールを定めれば自律的に勉強してくれる。ここに、私たち人間が考えつかなかったクリエイティビティや、さらなる効率性を導き出す可能性を秘めています。
ロボット制御と深層強化学習は親和性が高く、応用例も多くあります。建機もその領域内にあると思っています。今後は、人間の思考をうまくシミュレータに組み込み、より人間的で、曖昧な感性を必要とする領域にも活用していきたいです。ただ、感性をテーマにすると「いいもの」「感動するもの」など、本来人によって異なる価値観や評価軸を、明確に定めなくては学習が進まないという難題がある。技術の壮大な可能性を感じながら、活用方法の模索はこれからも続いていくでしょう。
新しい技術をどうリアルな生活で生かしていくのか。イノラボでは、メンバー一人ひとりのアンテナやアイディア、外部の技術力のある方からのアクセス、インプットから、いろんなプロジェクトが生まれていきます。イノラボと一緒に、テクノロジーを世の中に広げていきたいと考える同志の皆さんと出会い、また新たなアイディアを形にしていきたいと思っています。
お問い合わせ
お問い合わせは以下よりお願いします。


