しえログ

qiita との使い分けに悩んでる

昨日スノーボードに行ってきた

お誘いをいただいたので、会社の同期3人とリア充ウィンタースポーツの代表格であるスノーボードにこんな非リア初心者が行ってきた。実に4年ぶり3回目。筋肉と首がいまだに痛い。

朝は6時15分に起床。前日に前の部署のメンバーとのダーツで負けに負けてテキーラを飲み過ぎたのか、就寝直前にハイボールをひと缶開けてしまったせいかは知らないが喉と頭に若干のアルコールを感じながら支度。集合は東京駅に7時半だったのに電車の遅れもあって自分が到着したのは7時40分前。申し訳ありませんでした。

新幹線を待つ間にホームの KIOSK で朝食購入。なかなかのエッグチーズサンドイッチであった。さらに行きの車両はなんとグリーン車。学生時代から頻繁に新幹線利用してはいたけどグリーン車に乗ったことは今まで全然なくって正直都市伝説だとばかり思っていた。流石の快適さで滑る前の良い体力温存になったと思う。今度旅行でも使ってみたい。

ゲレンデついてからは4年ぶりの勘を取り戻そうと奮闘したものの、そう簡単にうまくは行かないしそもそも取り戻せる勘もあまりなかったというお粗末さ加減。時折平らになった場所からどうにもこうにも進まず結局ボード持っていちいち移動せにゃならんのは上達するにつれてなんとかなるらしい。にわかには信じられないけど。

昼飯はもちろんカレー。今回行ったスキー場は食べ放題で提供しておりしっかりおかわりまでしてきた。しかしながら満腹になったせいかようやく昼飯前に掴めたと思えた自信は昼飯後に少し滑ったあとにいとも簡単に崩れ去ることに。コケまくって首ポッキリいくんじゃないかと思ったし(実際1回だけコキっと音したし死を覚悟した)、ウェアをちゃんと着れてなかったみたいで雪も侵入しまくってた。

そんな状態だったので、昼飯後は少し滑ったら先にレストハウスで休憩。他の3人は自分の倍ぐらい滑ってたみたいだけど、1人が途中あのだだっ広いゲレンデ内で iPhone を紛失し、しかもそれを他の2人の携帯を利用しての「iPhone を探す」で解決したという珍事件があったらしい。神様っているんですね。

滑り終えたあとはサクッと近くの温泉で温まってから渋谷のゲスな街へ逆戻り。レタシャブの有名な店でレタシャブ食わずに1日の最後の飲みを楽しみ、軽く2次会までして帰宅し即就寝。

せっかくウェアも買ってあるしコツも掴みかけてきた最中だったのでまた挑戦したいけど、2月は仕事に業務外の社内論文書きにと忙しくなりそうなので次はいつになるのやら。 こないだの誕生日で30になっちまったし、もう新しいスポーツに対する挑戦で無理が効く歳でもないので軽く嗜むぐらいを目標にゆるく頑張ってはいきたい。

ECCV 2014 の Large-Scale Object Classification using Label Relation Graphs パラ読みして諦めたメモ

概要

  • 既存モデルを一般化する統合物体分類フレームワークを提案
    • 同じオブジェクトにつけられた複数のラベルの関係性に基づき、現実世界のより豊かな構造表現を抽出する
    • HEX グラフというグラフ構造を定義し、CRF(Conditional Random Field) 的な確率的分類モデルを提案
  • 評価データセットは ILSVRC2012
    • zero-shot learning も達成
  • 最大の貢献ポイントは理論面

参考スライド

コンピュータビジョン勉強会での takmin さんの発表資料。

所感

とにもかくにも定義が多すぎてメモしていかないと理解しながら読み進められないし実際挫折した。 もうちょいリファレンス論文読んだりグラフ理論とか確率周りの知見もつけてからもっかい読みたい。

次読みたいリファレンス

階層構造まわり

  • Tousch, A.M., Herbin, S., Audibert, J.Y.: Semantic hierarchies for image annotation: A survey. Pattern Recognition 45(1), 333–345 (2012)
  • Fergus, R., Bernal, H.,Weiss, Y., Torralba, A.: Semantic label sharing for learning with many categories. In: Computer Vision–ECCV 2010, pp. 762–775. Springer (2010)
  • Hwang, S.J., Sha, F., Grauman, K.: Sharing features between objects and their attributes. In: Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. pp. 1761–1768. IEEE (2011)

構造予測による階層アノテーション

  • Lampert, C.H.: Maximum margin multi-label structured prediction. In: NIPS. vol. 11, pp. 289–297 (2011)
  • Bi, W., Kwok, J.T.: Mandatory leaf node prediction in hierarchical multilabel classification. In: NIPS. pp. 153–161 (2012)
  • Bi, W., Kwok, J.T.: Multi-label classification on tree-and dag-structured hierarchies. In: Proceedings of the 28th International Conference on Machine Learning (ICML-11). pp. 17–24 (2011)

ハイボール片手に

酔っぱらいながらブログ書くのも久々な気がする。そこまで早めの会社上がりではなく、飲み始めたのは午後10時半ぐらいからだったのだけれど家近くの店をしっかりと2軒ハシゴできた。このポエムも帰ってきてシャワってから今日最後のハイボール片手に書いてるしとてもいい気分だ。

午前は一緒に仕事させていただいている協力子会社との MTG 及びその資料作り。結果としては昨日まで1週間ほど誠意を込めて練った案が半分受け入れられ半分ボツ・・・。持ち帰ってきた課題としてはまだ前向きな方向なので悲観するほどのことではないのだけれども。ただ、向こうはまったくの別職種なのでこちらの意見を通すのに骨が折れるし、せめてこちらで案考えるのが俺1人だけじゃなくて2人以上いればどんなに楽なことかと思う。そもそも社会人になってからこういう面倒くさい関係各所とのすり合わせ的なこと一切やってこなかったので、おそらく業務経験としてはいい部類なのだろうけど、やっぱり理想を言えば1日中研究活動していたいしデータ集めるための準備とかそれこそ人工知能でなんとかなっててほしい。未来早く来い。

遅めの昼飯を済ませたあとは産学連携先の大学の先生の講義でブースティング手法についてのお話。書籍でもよくお名前を見かける先生だし、話聞いてるだけで Gradient Boosting までなんとなくわかった気になれたのはめちゃありがたかった。AdaBoost とか Gradient Boosting とか目先のカッチョいい手法よりも根幹の数理的仕掛けに気付いて面白がれるかどうかが機械学習研究者だ(聞き間違いはあるかも)、とのことらしいです。当分の間、機械学習研究者とは名乗れなさそうですね。引き続き精進します。

CVPR2008 の Object Categorization using Co-Occurence, Location and Appearance メモ

概要

共起性と相対位置という2つのコンテキストを組み合わせて物体を分類する手法を提案。 意味・空間的な関連性に基づき、物体とラベルの対応度合いを最大化するために、系列ラベリング問題を解くための CRF(conditional random field) を利用している。 学習および評価には PASCAL 2007 と MSRC データセットを使用。

手法

Learning Spatial Context

学習というよりかは理解的な意味合いかな?

PASCAL 2007 および MSRC データセットにおけるセグメント化された領域及びその bouding box のラベルを ground truth として利用している。 画像 {I_1,…,I_n} があり、それぞれについて異なるカテゴリ {c_i, c_j \in \cal{C} \mbox{ s.t. } i \ne j } に属する物体が少なくとも2つある。 物体 { i } の bounding box を {\beta_i} とし、 以下のように定義する。

  • ラベル {c_i} の物体に対するラベル {c_j} の物体の重なり度合いのパーセンテージ: { O_{ij} = \frac{\beta_i / \beta_j}{\beta_i} }
  • それぞれの bouding box の重心の y 座標の差: { \mu_{ij} = \mu_{yi} - \mu_{yj} }

x 座標については水平方向の位置関係に意味が見い出せないので特に取り扱わない。 それぞれを3つ組にした空間情報記述子 { F_{ij} = (\mu_{ij}, O_{ij}, O_{ji})^{\mathrm{T}} } の特徴空間を4つのグループにベクトル量子化して俯瞰することで、自前で定義するよりも物体のペア間の関係性がより良い感じにできた。

Contextual Object Categorization Model

どう訳すべきかわからない。状況的物体カテゴリー分別法的な?

大まかな流れは以下の通り。

  1. 入力画像を信頼のおけるセグメンテーション手法でセグメント化する
    • 認識のために改良版 BoF *1と組み合わせる
  2. 各セグメントに対し信頼度に基づきラベル候補を割りあてる
  3. 各セグメントを位置及び物体の共起性による制約のもとで CRF のノードとしてモデル化する
    • ineraction potential {\phi_r(c_i, c_j)} を導入し、 {r = 1,..,4}above, below, inside, around )までの関係性について出現カウントを行列にまとめる
  4. local appearance, contextual agreement および spatial arrangements をもとにそれぞれのセグメントがカテゴリーラベルが与えられる
    • 関係性ごとの出現頻度(物体ごとの出現頻度を含む)を合計することで、最低限の共起性行列を得ることができる
    • 複数のラベルが割り当てられる確率をモデル化し、それを最大化させるような {\phi} を勾配法で探す
    • 数式めんどいから省略・・・

所感

  • 2008年とのこともあってこれまでの state-of-the-art な手法を超えたとはいってても最近はもうすでに何かいいやつ出てきてそう。
  • セグメンテーション手法何使ったのかな、言及してはいない気がする。
    • 書いてあった。Normalized Cut ベースの手法で行ってたみたいですね。
  • 数式もちょいちょい疑問残る箇所あったので機会あったら復習したい。

*1:Does image segmentation improve object categorization? 参照

業務関係者

昼飯は久々にモスバーガー食べた。小学生の頃からチーズバーガーとフィッシュバーガーの計2つと決めているけど、変わらぬ味で未だに飽きがこなくて良い。体重と健康は良くない。

最近は広告にまつわる研究開発で酒飲ませて飯食わせてもらってるわけなんですが、1日のスケジュールがガラリと変わりまして。 これまでは

朝: 開発、昼: 開発、夜: 開発

だったのが

朝: サーベイ、昼: 開発・検証、夜: 論文読み・勉強

と、PC 画面はちょいちょい見つつもキーボードは叩いてない時間のほうが多くなりました。 想像はしてたのですが大学院いた頃とほぼ同じようなスケジュールですね。学生のときは活動開始が昼からだったけど。

想像してなかったことかつツラミといえばこんな異動してすぐのペーペーが社内外のステークホルダーと色々やりとりしつつ進めないと何も始まらないことが多いところ。こっちからしたら向こうはデータ提供者サマという立場なので仲悪くならない程度にこちらの要求を突きつけて行かにゃならないのは何かスキル認定されてもいいと思う。

おまけに胆力低すぎのコミュ障にとってはスラックで話しかけるのも一苦労だし、自分の事前知識が足らないおかげで「えっ」「えっ」みたいなやり取りすることもしばしばで。これまで自分が主体で管理することが多かったパブリッククラウドなどの検証用インフラ環境もいちいち他のグループ上長に許可取らなきゃだったりもらえる権限もアレだったりするのも輪をかけてたりする。まぁここいらはきっとそのうち慣れてくると信じたいが・・・。

研究開発といえば院時代もなんだかんだで最後の修論研究は医療画像システムだった。あのときの外部関係者は病院の心臓外科医の先生1人だった上に発案が向こうだったのでとても気が楽だったなぁ。今の片付いて次の研究に移るとしたらこっちがデータ提供元になったりしての産学連携とかやってみたいぞ。

ECCV2016 の Visual Relationship Detection with Language Priors メモ

ブログでは読んだ論文についても軽くメモっていければいいなとか。 最初はできるだけ読む本数増やしたいのでアブストのまとめを載せるだけで済ますのも多くなりそうだけど所詮自分メモなので悪しからず。


著者

Lu, Cewu and Krishna, Ranjay and Bernstein, Michael and Fei-Fei, Li

概要

  • 物体と述語のより頻繁な共起性をもとにそれらの視覚情報を学習し、それらにおける複数の関係性を予測するモデルを提案した
  • 言語系の先行研究をベースに関連研究を上回る成果を出した
  • 提案モデルは多くの関係性を数少ないサンプルから見つけ出した
  • 関係性を理解することが画像検索の改善に繋がったことを示した

手法

  1. 生画像から R-CNN で物体候補となる bouding box を検出
  2. visual appearance module(中で CNN を利用)と language module (中で word2vec を利用)という2つの提案モジュールでスコアリング
  3. 物体と関係性についてそれぞれのモジュールのパラメータを学習
  4. mAP で評価

所感

ちょろっとしか触れられていないけど訓練データにはない関係性を見つけ出す zero-shot learning も達成してるっぽい。 アルゴリズム擬似コードもありがたく掲載してくれているし自前で簡単な CNN でも組んだら実装してみるのも面白いかもしれない。

最近も頑張って色々やってる

先日超久々にブログを再開するぞ、と意気込んだはいいものの早速1つ前の記事が約20日前になってる。 今年は日記兼ねたこんなポエムも頻度高めに綴っていければいいなぁ。と毎年思ってる気がしなくもない。

早いもので会社で部署異動をしてから2ヶ月が過ぎ去りやがりました。 オフィスに安くて美味しいコーヒー淹れてくれるカフェがあったり自習に困らないぐらいの蔵書のある共有本棚に囲まれて生活できているおかげか新生活にもなんとか慣れてきた気がします。 正直異動だけでここまで周りの雰囲気が変わるとも思ってもいなかったので戸惑わないことも無いのですが会社のイチ歯車という意味ではやることやるだけなのでまぁ頑張っています。

そんなわけで最近やっていることをざっくりと。

  • 機械学習のお勉強
  • 画像処理のお勉強(コンピュータビジョン周り)
  • 統計のお勉強
  • 広告関連のお仕事
  • Python3
  • R

下2つのプログラム言語系以外は現チームメンバーからしたらすべてノービス状態です(正直 R もか・・・。 大学院に在籍していたころになんちゃってでやっていた画像処理周りの数少なすぎる知見のおかげでなんとかチーム内での人権は保てている気がするけど気を抜いたらすぐにやられそう。 サーバエンジニアやってた5年間の貯金も活かせないこともないのでしばらくはお賃金もらえるとは思うけども・・・。

勉強だけじゃなくてちゃんと研究もやりたいし面白い結果も残したいので古今東西の論文ちゃんと読まないとな。 学んだことを実際にコードでシミュレーションしてアウトプットするってのもなるべくやっていく1年にしたい。