しえログ

qiita との使い分けに悩んでる

ECCV2016 の Visual Relationship Detection with Language Priors メモ

ブログでは読んだ論文についても軽くメモっていければいいなとか。 最初はできるだけ読む本数増やしたいのでアブストのまとめを載せるだけで済ますのも多くなりそうだけど所詮自分メモなので悪しからず。


著者

Lu, Cewu and Krishna, Ranjay and Bernstein, Michael and Fei-Fei, Li

概要

  • 物体と述語のより頻繁な共起性をもとにそれらの視覚情報を学習し、それらにおける複数の関係性を予測するモデルを提案した
  • 言語系の先行研究をベースに関連研究を上回る成果を出した
  • 提案モデルは多くの関係性を数少ないサンプルから見つけ出した
  • 関係性を理解することが画像検索の改善に繋がったことを示した

手法

  1. 生画像から R-CNN で物体候補となる bouding box を検出
  2. visual appearance module(中で CNN を利用)と language module (中で word2vec を利用)という2つの提案モジュールでスコアリング
  3. 物体と関係性についてそれぞれのモジュールのパラメータを学習
  4. mAP で評価

所感

ちょろっとしか触れられていないけど訓練データにはない関係性を見つけ出す zero-shot learning も達成してるっぽい。 アルゴリズム擬似コードもありがたく掲載してくれているし自前で簡単な CNN でも組んだら実装してみるのも面白いかもしれない。