ライフ

エスノグラフィー調査のための人物映像の行動データ解析

detail image

Field :

2019.04.20

企業でのマーケティング手法の1つに、生活者の行動を細かく観察するエスノグラフィーと呼ばれる手法があります。従来のエスノグラフィー調査では、現実環境でのありのままの動きを詳細に取得することが困難であり、多くの業界・企業においてより詳細な生活者の行動データのニーズが高まっています。そこで本研究開発では、現実の空間における生活者の行動を映像・音声データから解析する技術について検証しました。また、生活者のプライバシー保護の観点から、顔画像にモザイクをかけるマスキング処理についても検証を行いました。
 

増田 太郎

増田 太郎
Multimedia Signal Processing Evangelist

背景:現実世界のデータから生活者の行動を把握したい

生活者が日々の生活の中で具体的にとっている行動を把握することは、様々な業界・企業において非常に重要な課題となっています。例えば、ある商品を購入した生活者が、実際に家でどのような使い方をしているのかを把握することで、商品の改良に生かすヒントを得ることができます。具体的には、想定通りの用法・容量で使われているのか、または容器のデザインに不便を感じていないかなどを詳しく観察することで、有用な情報が得られるはずです。そのような行動観察の手法はエスノグラフィーと呼ばれます。従来のエスノグラフィーは、Webページのログを使って気軽に解析できるマーケティング手法とは異なり、実験環境に被験者となる生活者を呼び出し、そばで実験担当者が観察しながら行動の記録をする仕組みをとっています。そのため、

 

①被験者が、普段の生活とは違った環境において、人に見られていることを意識して、ありのままの行動をとりにくくなる

②長時間行動を観察されることが、被験者にとって大きな負担となる

③長時間行動を観察することが、実験担当者にとって大きな負担となる

といった問題点がありました。
そこで本研究開発では、問題点①や②を解決するために、被験者の行動範囲にカメラやマイクなどのセンサを事前に設置して常時収録しておくことで、なるべく普段の生活と同じ行動を取れるような実験環境を用意し、かつ被験者を長時間拘束するという負担も減らせるようにしました。また問題点③を解決するために、行動のタグをある程度自動で付与できるように下記の技術について動作検証を行いました。

 

・音響イベント認識技術

・映像から人間の動作を分類する技術

 

その一方で、生活者のプライバシー保護の観点から、撮った映像をそのまま活用するのではなく、生活者の顔画像にマスキングしてから観察する必要もあります。そこで本研究開発では、さらに

 

・顔画像検出によるマスキング機能

も実装することにより、プライバシーの問題も解決できるようにしました。

以降の節では、それぞれの要素技術について説明します。

 

映像や音声から行動イベントを認識する機械学習技術について

音響イベント認識技術:Googleが公開している深層学習のOSS「TensorFlow」の中から、YAMNetやVGGishと呼ばれる何百種類もの音響イベントデータを事前に学習させたモデルを活用し、生活者の行動の中で「掃除機をかけている音」「水を出して何かを洗っている音」などの行動タグを自動で付与することができます。この技術を用いて、「どんな音響イベントが発生したか」だけを記録し、音声データそのものは破棄することにより、生活者のプライバシーを侵害しない分析が実現可能となります。下図に認識結果の一例を示します。

 

図:「Vacuum Cleaner (掃除機)」であると音情報のみから認識している様子

図:「Sink, filling or washing(シンク、水を汲んだり洗ったりしている)」と音情報のみから認識している様子


映像から人間の動作を分類する技術:映像データを入力として、「ご飯を食べている」「電話をしている」など行動情報をテキストで出力するVision & Languageと呼ばれる分野の研究成果を利用しています。今回は、産業技術総合研究所にて開発された3D-CNN (Convolutional Neural Network, 畳み込みニューラルネットワーク) という深層学習モデルを利用しました。

 

図:映像を用いて行動認識した結果を出力した例。「Cleaning floor(部屋を掃除している)」と認識されている

プライバシー保護のための顔画像マスキング技術について

顔画像の検出については何十年も前から様々な手法が提案されていますが、今回はカーネギーメロン大学で開発された「OpenPose」と呼ばれる、顔のパーツや身体の関節点を高精度かつ高速に検出できる手法を用いました。具体的には、検出された顔の目や耳といったパーツの周辺領域の画像について、拡大処理と縮小処理を続けて施すことによって解像度の荒い画像、つまりモザイク画像を得ることができます。

 

図:顔画像をモザイクした結果の一例

まとめ

本記事では、弊社の研究開発事例として、エスノグラフィー調査のための人物映像の行動データ解析について解説しました。今後は、この研究開発成果を多くの業界や企業のマーケティングソリューションとして活用していただくために、電通グループとしてのプロダクト開発を推し進めていきます。