インターネットの高速化やストレージの高容量化が進み、テキストから画像、動画による情報共有が加速するなか、ユーザーにとって適切な順番に並べる動画のランキング指標は重要である。そこで、画像解析の最新技術調査及び社会応用を検討しているイノラボでは、画像解析に特化した国際会議CVPRで採択された論文「Who‘s Better? Who’s Best? Pairwise Deep Ranking for Skill Determination」に注目。これは、2つの動画からどちらの動画が習熟しているかを予測する手法が書かれたものだ。この映像ランキング技術が実際にビジネス利用は可能なのかを確認すべく、論文を元に技術調査から研究開発・検証を実施した藤木隆司氏に話を伺った。

藤木 隆司
プロジェクトマネージャー
機械学習で2つの動画のどちらが上手いかを判定する、映像ランキング技術
人間は五感で得られる情報を脳で処理して行動を取っています。なかでも視覚から得られるものが多いことから、画像をコンピューターで処理する画像解析の技術は重要であると考え、イノラボでは画像解析の最新技術調査及び社会応用についての研究を進めてきました。
そのなかで、ISIDが提供する人間の骨格情報から動作や姿勢を抽出するソリューション「Act Sense(アクトセンス)」を活用した研究を進めていた時に着目したのが、今回の論文でした。
Act Senseは、画像から推定される骨格の位置座標を使って姿勢を把握できる、たとえば工場での作業中に負荷がかかる姿勢をしていないかなどを解析するソリューションです。ただ、骨格情報から行動を理解させるためには「右手を上げて左足を上げたら歩いている」など、人間が行動を定義づけてパターン化する必要があります。しかも、細かな動きの場合は関節の座標だけでは定量化しづらいという課題もありました。
その点、ブリストル大学の研究者らが発表した論文「Who‘s Better? Who’s Best? Pairwise Deep Ranking for Skill Determination」によると、上手い・下手が順位づけされた動画データを用意すれば、それを教師データが機械学習して定量的なランク付けができると記載されていたのです。
論文で発表されたのは、2つの動画を評価してランク付けする機械学習を用いた「映像ランキング技術(Deep Ranking)」。2つの動画内で行われている技能のうち、どちらのスキルが高いかを判断するために、「手術」「絵を描く」「ピザ生地をこねる」「箸を使う」という4つの項目でテストは行われ、ランキングが作られていました。
出展: Who‘s Better? Who’s Best? Pairwise Deep Ranking for Skill Determination
つまりこの映像ランキング技術なら、あらかじめどちらの動画が上手かを機械学習させておけば、従来のように関節の位置から行動を定義づけし、動作認識やスコアリングのロジックを開発する必要がなくなるということ。そこで、この優れた技術で社会実装が可能かを検証することにしました。
ただ、今回の論文で公開されていたのは教師データと論文のみ。アルゴリズムがオープンソースで公開されていなかったため、技術調査から始めることになりました。論文を元に自分たちでアルゴリズムを作って本当に実装できるのか、そのモデルに公開された教師データを使えば論文と同じような精度の結果を出せるのか。通常は公開された技術を使って実装・検証するのが一般的のため、今回の研究開発はチャレンジでした。
論文を元にゼロから開発。社会実装するには別の仕組みも必要
こうした、オープンソース化されていない論文の最新技術を検証した背景には、著しく進化を続けている画像解析の最新技術をキャッチアップしたい思いもありました。ディープラーニング登場時は「犬か猫か」を画像分類、それだけでも従来トレンドを上回る性能を出して衝撃的でしたが、次には動画の分類も行われるようになり、今では画像を生成することもできます。イノラボでは、公開された最先端技術を使うだけでなく、その中身をきちんと把握したいと考えたのです。
まずは論文を発表した研究者と同等の知識を得るために、今回の論文を読み進めていきました。完全に手探り状態で始めたのですが、徐々に見えてきたのは、複数の技術を組み合わせて実現されていたことです。
少し専門的な話になりますが、今回映像ランキングするモデルは、その動画が何をしているかというAction Recognitionで使われているTwo-Stream Networkと、重みを共有して学習するSaimese Networkとを組み合わせることで、行動を理解し、比較するという学習を行なっていることがわかりました。
出展: Who‘s Better? Who’s Best? Pairwise Deep Ranking for Skill Determination
そして、参照されていた論文などからオープンソースで公開されている技術や情報を組み合わせてアルゴリズムを再現。3ヶ月ほどかかりましたが、公開されていた教師データで検証した結果、論文と同等以上の性能を示すことが確認できました。
今回の実装・検証で感じた課題は、単純な動きなら問題ないのですが、複雑な動きの場合は上手い・下手の意味付けが難しく、教師データを作るのが困難だという点です。
というのも、「これは上手い動き」「これは下手な動き」と行動パターンを決める際に、複雑な動きの動画はどうしても人間の感覚や主観に左右されがちだからです。誰が見ても判断できる定義までブレイクダウンしないとAIに正確な教師データを与えられないため、専門家に行動を言語化してもらいながら教師データを作成し、対応しました。
また、上手い・下手のランキングの精度を高めるには、当然のことながら学習するデータが大量に必要になります。だから、社会実装を実現させるには、映像ランキング技術とは別に、自動的にデータ収集が集まる仕組み、上手い・下手の定義するノウハウを溜められるような仕組みを考える必要があることもわかりました。
応用範囲の広い映像ランキング技術。最先端技術の組み合わせでより高度化へ
今回は、論文を読み解いてゼロから実装・検証するプロセスを踏んだため、本当に実証できるのかというリスクはありました。それでも情報を追って一つずつ要素をクリアにしていけば実証できたこと、それによって画像解析の最新動向を把握できたのは大きな成果だと思っています。
今後実装した技術は、人の目視では評価にばらつきがあるような領域、たとえば工場での作業習熟度の判定、スポーツのフォーム判定など、トレーニングした人の習熟度を可視化するソリューションとして提供できる可能性が高いと考えます。
また、新型コロナウイルスの感染拡大によって世界中でリモート化が進むなか、映像ランキング技術はさまざまな領域で応用できると思います。たとえばフィットネスやリハビリ領域でも、撮影した映像をスコア化できれば、より定量的に評価できるようになるでしょう。加えて、上手い・下手だけでなく「好き・嫌い」にも応用ができるので、ユーザーが望む順番に動画を並び替える技術としてもこの技術を活用したいですね。
今はまだ映像ランキング技術自体が新しいものなのでニーズが顕在化されていませんが、数年後、技術も発展し、より少ないデータで高精度に動画をランク付けする最先端研究がなされていると思います。そうなったときに今回の知見を生かしてタイムリーに応えていけるよう、これからも最先端技術のキャッチアップと検証を続けていきたいです。
お問い合わせ
お問い合わせは以下よりお願いします。


