企業でのマーケティング手法の1つに、生活者の行動を細かく観察するエスノグラフィーと呼ばれる手法があります。従来のエスノグラフィー調査では、現実環境でのありのままの動きを詳細に取得することが困難であり、多くの業界・企業においてより詳細な生活者の行動データのニーズが高まっています。そこで本研究開発では、現実の空間における生活者の行動を映像・音声データから解析する技術について検証しました。また、生活者のプライバシー保護の観点から、顔画像にモザイクをかけるマスキング処理についても検証を行いました。

増田 太郎
Multimedia Signal Processing Evangelist
背景:現実世界のデータから生活者の行動を把握したい
生活者が日々の生活の中で具体的にとっている行動を把握することは、様々な業界・企業において非常に重要な課題となっています。例えば、ある商品を購入した生活者が、実際に家でどのような使い方をしているのかを把握することで、商品の改良に生かすヒントを得ることができます。具体的には、想定通りの用法・容量で使われているのか、または容器のデザインに不便を感じていないかなどを詳しく観察することで、有用な情報が得られるはずです。
そのような行動観察の手法はエスノグラフィーと呼ばれます。従来のエスノグラフィーは、Webページのログを使って気軽に解析できるマーケティング手法とは異なり、実験環境に被験者となる生活者を呼び出し、そばで実験担当者が観察しながら行動の記録をする仕組みをとっています。
そのため、
① 被験者が、普段の生活とは違った環境において、人に見られていることを意識して、ありのままの行動をとりにくくなる
② 長時間行動を観察されることが、被験者にとって大きな負担となる
③ 長時間行動を観察することが、実験担当者にとって大きな負担となる
といった問題点がありました。
そこで本研究開発では、問題点①や②を解決するために、被験者の行動範囲にカメラやマイクなどのセンサを事前に設置して常時収録しておくことで、なるべく普段の生活と同じ行動を取れるような実験環境を用意し、かつ被験者を長時間拘束するという負担も減らせるようにしました。また問題点③を解決するために、行動のタグをある程度自動で付与できるように下記の技術について、動作検証を行いました。
・音響イベント認識(環境音解析)技術
・映像から人間の動作を分類する(行動解析)技術
その一方で、生活者のプライバシー保護の観点から、撮った映像をそのまま活用するのではなく、生活者の顔画像にマスキングしてから観察する必要もあります。
そこで本研究開発では、さらに
・顔画像検出によるマスキング機能
も実装することにより、プライバシーの問題も解決できるようにしました。
以降の節では、それぞれの要素技術について説明します。
環境音解析・行動解析からイベントを認識する機械学習技術の研究開発
音響イベント認識(環境音解析)技術については、Googleが公開している深層学習のOSS「TensorFlow」に含まれている、YAMNetやVGGishと呼ばれる何百種類もの音響イベントデータを事前に学習させたモデルを活用しました。このモデルを使うと、生活者の行動の中で「掃除機をかけている音」「水を出して何かを洗っている音」などの行動タグを自動で付与することができます。この技術を用いて、「どんな音響イベントが発生したか」だけを記録し、音声データそのものは破棄することにより、生活者のプライバシーを侵害しない分析が実現可能となります。下図に認識結果の一例を示します。
図:環境音解析により、「Vacuum Cleaner (掃除機)」であると音情報のみから認識している画
図:環境音解析により、「Sink, filling or washing(シンク、水を汲んだり洗ったりしている)」と音情報のみから認識している画
また、映像から人間の動作を分類する行動解析技術も活用しました。映像データを入力として、「ご飯を食べている」「電話をしている」など行動情報をテキストで出力するVision & Languageと呼ばれる分野の研究成果を利用しており、今回は、産業技術総合研究所にて開発された3D-CNN (Convolutional Neural Network, 畳み込みニューラルネットワーク) という深層学習モデルを利用しました。
図:映像から行動解析をし「Cleaning floor(部屋を掃除している)」と認識されている画
プライバシー保護されたエスノグラフィー調査のための顔画像マスキング技術研究開発
顔画像の検出については何十年も前から様々な手法が提案されていますが、今回はカーネギーメロン大学で開発された「OpenPose」と呼ばれる、顔のパーツや身体の関節点を高精度かつ高速に検出できる手法を用いました。具体的には、検出された顔の目や耳といったパーツの周辺領域の画像について、拡大処理と縮小処理を続けて施すことによって解像度の荒い画像、つまりモザイク画像を得ることができます。次の図に、具体的な映像について全身のパーツを認識している様子と、最終的に出力されるモザイク画像の例を示します。
図:OpenPoseを用いて全身のパーツを認識している様子
図:顔画像をモザイクした結果の一例
IoTを活用したエスノグラフィー調査は、上述しているプライバシー保護の観点も加味しつつ、分析に必要な正確な行動把握が重要となります。
この相反する点をトレードオフしながら、いかに実際に活用可能なものにするかの検討は、関係者間でも非常に悩み、多くの議論がされました。これにより、要件が二転三転した中で臨機応変に開発を進めるのは非常に大変なものでした。
まとめ
本記事では、弊社の研究開発事例として、エスノグラフィー調査のための人物映像の行動データ解析について解説しました。今後は、この研究開発成果を多くの業界や企業のマーケティングソリューションとして活用していただくために、電通グループとしてのプロダクト開発を推し進めていきます。
お問い合わせ
お問い合わせは以下よりお願いします。


