しえログ

qiita との使い分けに悩んでる

CVPR2008 の Object Categorization using Co-Occurence, Location and Appearance メモ

概要

共起性と相対位置という2つのコンテキストを組み合わせて物体を分類する手法を提案。 意味・空間的な関連性に基づき、物体とラベルの対応度合いを最大化するために、系列ラベリング問題を解くための CRF(conditional random field) を利用している。 学習および評価には PASCAL 2007 と MSRC データセットを使用。

手法

Learning Spatial Context

学習というよりかは理解的な意味合いかな?

PASCAL 2007 および MSRC データセットにおけるセグメント化された領域及びその bouding box のラベルを ground truth として利用している。 画像 {I_1,…,I_n} があり、それぞれについて異なるカテゴリ {c_i, c_j \in \cal{C} \mbox{ s.t. } i \ne j } に属する物体が少なくとも2つある。 物体 { i } の bounding box を {\beta_i} とし、 以下のように定義する。

  • ラベル {c_i} の物体に対するラベル {c_j} の物体の重なり度合いのパーセンテージ: { O_{ij} = \frac{\beta_i / \beta_j}{\beta_i} }
  • それぞれの bouding box の重心の y 座標の差: { \mu_{ij} = \mu_{yi} - \mu_{yj} }

x 座標については水平方向の位置関係に意味が見い出せないので特に取り扱わない。 それぞれを3つ組にした空間情報記述子 { F_{ij} = (\mu_{ij}, O_{ij}, O_{ji})^{\mathrm{T}} } の特徴空間を4つのグループにベクトル量子化して俯瞰することで、自前で定義するよりも物体のペア間の関係性がより良い感じにできた。

Contextual Object Categorization Model

どう訳すべきかわからない。状況的物体カテゴリー分別法的な?

大まかな流れは以下の通り。

  1. 入力画像を信頼のおけるセグメンテーション手法でセグメント化する
    • 認識のために改良版 BoF *1と組み合わせる
  2. 各セグメントに対し信頼度に基づきラベル候補を割りあてる
  3. 各セグメントを位置及び物体の共起性による制約のもとで CRF のノードとしてモデル化する
    • ineraction potential {\phi_r(c_i, c_j)} を導入し、 {r = 1,..,4}above, below, inside, around )までの関係性について出現カウントを行列にまとめる
  4. local appearance, contextual agreement および spatial arrangements をもとにそれぞれのセグメントがカテゴリーラベルが与えられる
    • 関係性ごとの出現頻度(物体ごとの出現頻度を含む)を合計することで、最低限の共起性行列を得ることができる
    • 複数のラベルが割り当てられる確率をモデル化し、それを最大化させるような {\phi} を勾配法で探す
    • 数式めんどいから省略・・・

所感

  • 2008年とのこともあってこれまでの state-of-the-art な手法を超えたとはいってても最近はもうすでに何かいいやつ出てきてそう。
  • セグメンテーション手法何使ったのかな、言及してはいない気がする。
    • 書いてあった。Normalized Cut ベースの手法で行ってたみたいですね。
  • 数式もちょいちょい疑問残る箇所あったので機会あったら復習したい。

*1:Does image segmentation improve object categorization? 参照