360度カメラ、全方位向けLEDアレイ、マイク・スピーカーで構成される、球体状の遠隔コミュニケーションデバイス「TiCA(Trans-interactive Communication Agent:チカ)」。遠隔にいる人同士のコラボレーションや、人とロボットとの協調社会を実現するデバイスとして、IoA(Internet of Abilities)を提唱する東京大学暦本研究室とともに開発しました。
今回は、そのTiCAを活用し、遠隔コミュニケーションを行う人間一人と、コミュニケーションAIが協業して、同時に複数のロボットを動かすためにはどうすべきかを検討しました。
近い将来、数多くの宅配ロボットが街を行き交う世界がやってきたとき、何が課題となり、それをどう解消していくべきなのか。プロジェクトマネージャー・岡田敦に話を聞きました。

岡田 敦
空間テクノロジスト
一人1台ではなく一人が複数のロボットを扱う。人とAIのコラボレーションへの挑戦
いつも身近にいてサポートしてくれるウェアラブルデバイスを作ろうと、2018年に開発した「TiCA」。ZMP社の宅配ロボットとTiCAを組み合わせた実証実験では、品川港南エリアの施設内を自律走行しコーヒーをオフィスまで届けることに成功しました。遠隔コミュニケーションデバイスとしての可能性を評価され、2018 ACC TOKYO CREATIVITY AWARDSクリエイティブイノベーション部門ブロンズ賞も受賞しました。
関連記事:「遠隔コミュニケーションデバイス「TiCA」で実現する、人間拡張の世界」
一方で見えた課題も多く、その一つが、TiCAを運用するコストパフォーマンスをいかに上げるかという点でした。実験では、一人のオペレーターが、1台のTiCAと宅配ロボットを常に監視していましたが、それではマンパワーとコストに限界があります。今後、人とロボットの共存を実現するには、できるだけ多くのロボットを少ない人数でマネジメントしていかなければいけない。そこで考えたのが、複数のTiCAの遠隔操作をAIに任せ、人が介入すべきタイミングのみ、人がコミュニケーションを図る「人とAIのコラボレーション」です。
開発を進めた2018年当時、「AIが人の仕事を奪う」という論調が強く、“AIと人との共存”という考え方はマイナーでした。しかし本来、AIは人を単純作業から開放し、人のサポートを担う存在であるはずです。協業できる仕組みづくりが人の役割だという思いが、本研究のベースにありました。
将来的には通常サービスはAIが⼈とのコミュニケーションを担当し、異常事態などに⼈(オペレータ)が介⼊する
TiCAを搭載した宅配ロボットが、商品を問題なく届けられれば、人が介入する必要はありません。しかし、「頼んだものと違う」「頼んだ時間に間に合っていない」などのサービストラブルがあれば、その内容によってさまざまな対応が求められます。「〇時までに正しい商品をお届けします」「こちらの代金は差し引かせていただきます」など、人の柔軟なコミュニケーション力と対応スピードが必要になるでしょう。こうしたトラブル前に人が介入できる仕組みができれば、トラブルを未然に防止でき、自動宅配サービス展開の重要な課題解決につながります。
コラボレーションの実現にあたり、大事なポイントは「AIから人へバトンタッチ」するトリガー(きっかけ)を何にするのか、という点でした。基本的な業務はAIに任せながらも、人が介入すべき事態をいち早く感知し「人による対応が必要だ」とアラートを出す。人への切り替えポイントを明確にできれば、AIが操作する複数のTiCAを、一人の人間がチェックする社会が実現できるのではないかと考えました。
自動宅配サービスの省人化を実現するTiCAシステムの活用イメージ
表情解析技術で、AIから人へのバトンタッチを実現
AIから人へのスムーズな連携のために、本研究でトリガーにしたのは「表情」でした。
中でも、トラブルにつながる「怒り」や「不満」の表情に着目。相手の表情にその変化を感知すれば、オペレーターが監視しているモニター上にアラートランプがつき、すぐ人の対応に切り替えられるという仕組みづくりを進めました。
表情解析には、Microsoft社Azureの、人の表情を読み取るプロトタイプを利用。相手の感情の変化をどこまでリアルタイムにキャッチし、オペレーターとの連携にタイムラグを生じさせないか。
TiCAが撮影した魚眼画像を平面画像に変換し、Azureが表情を解析。⼈間の感情を読み取り、閾値を超えたらAIから人に対応を切り替える。発話者を特定しお困り発⾔をオペレーターに表⽰することで、遠隔オペレーターが容易にAIと⼈とのやりとりをキャッチアップできるようにする
研究の結果、相手の表情から怒りや不満を認識し、オペレーターへの対応アラートを出すまで1~2秒と、ほぼリアルタイムでできることが判明しました。
また、「表情」に着目したことで、見えた仮説や課題もありました。今回の研究では自ら被験者となり、さまざまな表情を作ってAIに解析してもらいましたが、私自身、普段から「怒り」を表出することに慣れていません。眉間にしわを寄せてみたり、口をとがらせてみたりと試行錯誤を続け、ようやく「怒り」を認識してもらったほどです。もしかすると日本人は他の国の人と比べてそこまで感情を顔で表現しないのでは、という疑問を持ち始めました。
本検証を行った2018年では、ここの深堀はできませんでした。しかし、今回のプロトタイプの検証では、AIとオペレーターの切り替えのトリガーとして表情を使うことがそこまで非現実的なことではないということが明らかになったと考えられます。
今回の検証では、人とAIの協業を進めるための「新たなトリガー」を検証するべく、表情に限定したリアルタイム解析を進めてきました。表情解析の正確さは確認できませんでしたが、例えば相手の身振り手振りや、音声情報の感情解析ができれば、より正確な判断ができるのではないか、というアイデアも考えられます。我々は表情以外に、相手の身振り手振りや言葉の抑揚やトーン、しゃべるスピード、しぐさなどを総合的に判断して、相手の感情を捉えています。今後、トラブルの兆候をより精緻にとらえるために、視覚的情報と聴覚的情報の複合的な解析をふまえて、研究を進めていく必要があるでしょう。
エッジAIのスピードに近づいた、リアルタイムな表情解析
今回の研究には、クラウドを活用した、AIの表情解析処理スピードを図る意図もありました。Microsoft Azureを使って、実用的な速度で表情解析ができたことは、一つの成果だったと思っています。
「クラウドAI」に対して現在注目されているのが「エッジAI」です。
エッジAIとは、現場に近いデバイス(エッジデバイス)が現場の判断で危険を察知し動けるAIのこと。海外で宅配ロボットの運用が進んでいるように日本でも複数の宅配ロボットが街を行き交う世界がやってくれば、エッジAIのニーズは高まるでしょう。例えば宅配中のロボットの目の前に子どもが飛び出してきても、瞬時に「止まる」判断がクラウドAIに比べて早いと考えられます。
ただ、エッジAI処理では、宅配ロボットなど処理を行う演算機で処理するため、バッテリー消費が大きく、演算するためのリソースが足りず運用に支障が出る欠点があります。クラウドAIを活用するのか、エッジAIを利用すべきなのか、今回の検証では明確にできていませんが、少なくとも近年の技術ではエッジでの処理が不可能ではなくなってくるのでは、ということを示せたと考えています。
イノラボのミッションは、先端テクノロジーを活用したサービス開発を「世界に先駆けて」手掛けることです。2018年の宅配ロボットとの実証実験によって見えた「1人が1台のロボットを見るのは非現実的だ」という課題。そこに対してすぐ動き出せたのは、イノラボが、“未来につながる技術の探究”を大事にしているからです。
コロナによって、今後10年かけて変化していく世界が、一気にやってきたといわれる今。自社サービスを持たないイノラボならではの強みを、更なる研究開発につなげていきたいです。
お問い合わせ
お問い合わせは以下よりお願いします。


