CV 関東勉強会

CLONE FROM

http://tessy.org/wiki/index.php?%CA%D9%B6%AF%B2%F1%2F%A5%B3%A5%F3%A5%D4%A5%E5%A1%BC%A5%BF%A5%D3%A5%B8%A5%E7%A5%F3%CA%D9%B6%AF%B2%F1%A1%F7%B4%D8%C5%EC#gff87f3e

勉強会/コンピュータビジョン勉強会@関東 コンピュータビジョン勉強会 に参加した記録
connpassのページも開設しました*1

第29回「有名論文を読む会」

  • 今回は有名論文を読む会
  • 会場は東大本郷キャンパス

P-N Learning: Bootstrapping Binary Classifiers by Structural Constraints

  • takminさんによる発表
  • スライドはこちら

Curriculum Learning

  • losnuevetorosさんによる発表
  • スライドはこちら

Selective Search for Object Recognition

  • sakanazensenさんによる発表
  • D進どうですか!
  • スライドはこちら

Learning to forget: Continual prediction with LSTM

  • peisukeさんによる発表
  • 出産、引っ越し明けでの発表ありがとうございました。
  • スライドはこちら

Learning Bayesian network from data

  • mabonki0725さんによる発表でした
  • ベイジアンネットワークは循環するループを作れない

懇親会

  • 最中に地震が。
  • 物心つく頃にはデュアルコアだった人間が、何故かベーマガを知ってた
  • 学会で役立ちそうなネットワーク図があればいいな
  • D進どうですか!

第28回「5巻2章 複数画像からの三次元復元」

  • 会場は東大本郷キャンパス

第27回「コンピュータビジョンでこんなプログラム作りました大LT大会」

  • 今回は実装系メインの回。いつもと毛色の違うテーマのためか、半数近くが初参加の方でした。結局当日は10名に発表して頂きました。
  • 会場は東大生産研究所
  • togetter

オープニングトーク

  • 私が担当

Deep Learningで物体検出

  • takminさんによる発表でした
  • 地雷が多かったという報告
  • スライドはこちら

PyCPXによる峯岸みなみの認識

  • jellied_unagiさんによる発表
  • 見事似た顔の中から峯岸みなみさんを認識してました
  • 事前検出で見落としてると、さすがに無理
  • スライドはこちら

最近の最近傍探索 PQと仲間達

  • ketsumedo_yarouさんによる発表
  • PQはproduct quantization の略
  • 量子化することで、マッチング時の検索をLUTで高速に行えるという話
  • スライドはこちら

Caffeのデータレイヤで夢が広がる話

  • rezoolabさんによる発表
  • Caffeのデータレイヤを自前で実装
  • 博士課程で、そろそろ求職中とのことでした
  • スライドはこちら

Deep AKB48

  • conta_さんによる発表
  • サーバも立てて、そこに画像を放り込むと、AKBの誰だか認識するサービス
  • 半分仕事、半分趣味。良いですねー
  • スライドはこちら

OpenCV 便利Tips紹介

  • 我らがdandelion1124先生による発表
  • OpenCLの自前カーネル
  • メモリの使用量計測
  • 3.0から追加されるラベリング機能の紹介
  • 相変わらずテクい話ばかりでした
  • スライドはこちら

色恒常性に基づく色補正ライブラリcolorcorrec

  • shunsukeaiharaさんによる発表でした
  • 初参加で初発表、ありがとうございました
  • 色補正colorcorrecのデモでは会場から「あーなるほどー」と納得の性能
  • スライドはこちら

3D医用画像アプリを作った

  • fofofさんによる発表
  • 医用画像は2次元でなく、3次元
  • 3次元だと、近傍が6近傍、18近傍、26近傍と、見慣れない数字になるなど、知らなかった世界を紹介してもらえました
  • スライドはこちら

スマートカメラ作ってみた

  • tabe2314さんによる発表でした
  • リアルタイムで、しかも無線で動くJetsonTK1によるデモでした
  • 電源バッテリーとか、ネットワークも無線とか、格好良すぎる

JetsonでOpenCV

  • 最後は私の発表
  • 丸々ネタかぶり
  • スライドはこちら

懇親会(新年会)

  • 下北沢で新年会
    • おめでとう
    • スカイネットは生まれるのか?
    • 次回どうするか
    • などで盛り上がりました。

第26回「番外編 ECCV2014読み会」

ECCV 2014 の読み回でした。会場は東大生産研究所。

オープニングトーク

Large-Scale Object Classification Using Label Relation Graph

  • takminさんの発表でした
  • 一般物体認識をする際に、属性の包含、排他関係を導入するお話
  • 属性は包含 ( puppy や husky は dog である ) と排他 (cat は dog ではなく、その逆もまた真)の2種類を定義
  • それらを学習時に適用することで、矛盾する学習結果を弾いて精度を向上させるお話
  • 属性はHEXグラフで定義され、有向エッジと無向エッジで属性関係が表現される
  • スライドはこちら*2

Face detection without bells and whistles

  • jellied_unagiさんの発表でした
  • 顔検出を地道に丁寧にやってみたら精度が上がったよ、という論文
  • 例えば、「誤検出」の定義や、そもそも学習データのアノテーションなどをもっと厳密に行った論文
    • 片目が少なくとも見えてないとダメとか、サイズが一定以上じゃないと学習に使わないとか
    • そういった厳密なアノテーションをすることで精度が上がったというお話
  • スライドはこちら*3

Facial Landmark Detection by Deep Multi-task Learning

  • poyyさんの発表でした
  • 初発表ありがとうございます
  • 顔検出のタスクを、
    • 顔の特徴点5点の位置検出と
    • 顔の向き/メガネの有無/笑顔かどうか/性別の4つの補助Taskに分けた研究
  • 学習時に、補助Taskの過学習を防ぐ仕組みも導入
  • これにより、精度よく学習が出来ましたというお話
  • あくまで、特徴点5点(両目、口角、鼻の頂点)の位置検出がメインTaskという主張
  • ライブデモもあり、会場は盛況でした。
  • スライドはこちら*4

Blind Deblurring Using Internal Patch Recurrence

  • tackson5さんの発表でした
  • 安定の会場大爆笑からスタート
  • 僕は大好きな発表です
  • Deblur を行う研究
  • Patch based なdeblur なのだが、Patch を推定する際に自己の画像を縮小した画像で行う研究
    • 自己の縮小画像でするので、recurrence
  • Averageは、従来手法を凌駕こそしないものの、Worst case が改善されていて、よりロバストなdeblurだという研究
  • 発表スライドはこちら*5

Part-based R-CNNs for Fine-grained Category Detection

  • tabe2314さんの発表でした
  • CNN で鳥を認識する際に、鳥の目の位置、羽の位置などを学習データに盛り込むことで、高精度な認識を行う研究
  • DPMと違い、あくまで全身に対するパーツの位置をGMMで表すことで精度が向上した研究
  • また、並列でもう1本の手法を提案しており、そちらは、画像から似た鳥の画像をクエリし、その画像中の、頭の位置、胴体の位置などを制約として鳥の認識を行う
  • 一応鳥が主眼の研究だったが、鳥以外の動物でも当然うまくいきそう。

懇親会(忘年会)

  • 12名も参加して頂いて盛況でした
  • 誰がリア充だ、誰が隠れリア充だ、という話が一部で盛り上がりました
  • 日本の小学校も二人がけの机にするべきだと思います
  • 今年もお疲れ様でした

感想

  • ECCVの論文を、皆様分かり易く解説して頂いて、感謝です。
  • 発表者の方も、ぜひとも臆せずに立候補してもらえれば幸いです
  • 2回連続で発表できてないので、次回は自分が立候補しようと思います

第25回「番外編 3次元形状計測・認識」

  • 仕事のために参加できず。無念!

第24回「番外編 CVPR2014読み会 後編」

CVPR 2014 の読み回(後編)でした。会場は東大生産研究所。

オープニングトーク

  • 今回は発表をする手前、私がオープニントークを担当しました

DeepFace: Closing the Gap to Human-Level Performance in Face Verification

  • の発表でした。
  • スライドはこちら
  • 笑いが少なくて、理解度も足りなく、ちょっと反省

Model Transport: Towards Scalable Transfer Learning on Manifolds

  • 発表は@_kohtaさん
  • スライドはこちら
  • Lie群を直接学習する際に、パラメータがユークリッド空間にないから、一度変換してから学習するお話。
  • 転移学習
  • 例えば人間の格好を違う向きから撮影した画像だったり、体の大きさの変わり方なんかを多様体で表す。という発表。
  • 正直むずかしかった

Face Alignment at 3000 FPS via Regressing Local Binary Features

  • 発表は @tackson5さん
  • スライドはこちら
  • かわいい女の子が散りばめられていて、またドッキリも仕掛けられていて、私からすると理想的なスライドでした。

Reconstructing storyline graphs for image recommendation from web community photos 他

  • 発表は@_akisatoさん
  • スライドはこちら
  • メインの論文と、その第一著者がシリーズでされている研究紹介でした
  • 発想が面白いけれど、「数値的、定量的な評価、検証が難しい」という印象
  • それでも価値があると思わせる研究でした

次回以降のネタについて

  • @takmin さんから、次回以降のネタについて、提案がありました
  • 9個ネタの提案をした上で、会場からの多数決で人気を取り、あとは幹事で相談して決めます。

懇親会

  • 懇親会も開きました。長かったので3行でまとめると
    • エンジニアの教養として「ジョジョの奇妙な冒険」は必須
    • スタンド使い(高専クラスタ)同士はひかれあう
    • スティーリー・ダンはラバーズの本体名であって、ホイール・オブ・フォーチュンはズィー・ズィーの誤りでした。各位すいません

第24回「番外編 CVPR2014読み会 前編」

CVPR 2014 の読み回(前編)でした。会場は東大生産研究所。

オープニングトーク

BING: BinarizedNormed Gradients for ObjectnessEstimation at 300fps

  • 発表者:takminさん
  • スライドはこちら

Inferring Unseen Views of People

第23回「6巻第4章 ディープ・ラーニング」

Deep Learning の回でした。会場は東大生産研究所。

1 はじめに – 2.1 多層ニューラル

  • 発表者:tomoaki_teshima
  • 私の発表です。スライドはこちら
  • 導入部分だけなので、Deep Learning 自体は紹介してるに過ぎませんが、初心者にも分かり易い説明を心がけました。

誤植や単語の使い方について

  • 発表中、及び発表後の議論で、
    • 資料内でNNおよびNeural Networkと指摘しているものはMLP(Multi Layer Perceptron:多層パーセプトロン)と呼ばれるものであって、MLPはNNの一部に過ぎない
    • 単語の誤植で、正しくはNeocognitronである
  • というご指摘を頂きました。
  • 単語に関しての誤りは十分気をつけようと思います。ご指摘ありがとうございました。

ミニバッチについて

  • ミニバッチは果たして
    • 過学習を抑える目的があるのか
    • 学習を早めに収束させるためなのか
  • どちらなのか、という質問がありました。
  • 手島の解釈では、後者、だったのですが、議論の中では
    • 本来は、ランダムに選択することで、過学習を抑える効果も期待されるのではないか
    • ランダムに選択するべきなのだが、学習データが十分揃っていれば、先頭から10個ずつ、みたいな入力をしても等価な効果が期待されるのではないか、
  • という意見もありました。

2.2 Convolutional Neural Network – 2.4 局所コントラスト正規化

  • 発表者:hokkun_cvさん
  • 今回が初発表にして初参加。スライドはこちら
  • CNNに関する説明をして頂きました。
  • 学部の卒論で食事画像の認識をされており、CNNも実際に利用されたそうです
  • 使うにあたって顕在化する問題点(パラメータがたくさんあることや画像の入力フォーマットが特殊だった)や世の中に生じやすい誤解(Pre-training と Deep Learning が混同されがち)など、一歩踏み入った目線での紹介がされました

3 多層NNの教師なし学習

  • 発表者:tabe2314さん
  • 今回が初発表。今回の教科書は元ボスと元同期が執筆されたそうです。
  • スライドはこちら
  • オートエンコーダ、スパースな制約とスパースコーディング、Topographic ICAの詳細と、それぞれがどの様に寄与するのか、という説明を分かり易くして頂きました。

CNNと脳の視野角について

  • pre-training しなくて CNN がうまくいくのは、画像の限って言えば成り立つ話。
  • 画像じゃない場合は、学習がうまくいかない場合も多々ありうる。
  • CNNと画像の組み合わせが良いのは、CNNの構造が脳の視野角のアーキテクチャに似てるからでは無いだろうか、という議論

4 生成モデルに対するディープラーニング – 4.2 Restricted Boltzmann Machine

  • 発表者:jellied_unagiさん
  • jellied_unagiさんは、今回から幹事も引き受けてくれた方です
  • 会場の手配、ありがとうございます。スライドはこちら
  • 非常に難解な数式を丁寧に説明して頂きました。

4.3 Deep Belief Network – 6 終わりに

  • 発表者:takminさん
  • 幹事兼私の先輩でもあります。スライドはこちら
  • ボルツマン、ボルツマンマシンのスライドで会場中爆笑でした

感想、その他

  • 難しかったです・・・
  • 久しぶりの発表だったので、緊張しました
  • 会場が今回から慶應矢上から東大駒場に移動になったので、個人的には超大歓迎でした。
  • あと、今回幹事に参加表明をしたので、これから幹事としても頑張って行きます。

第21回「ECCV2012読み会」

第19回「番外編 CVハッカソン」

第15回「3巻第4章 Bag-of-Featuresに基づく物体認識(2) -一般物体認識-」

第10回「番外編 OpenCV祭り」

第9回「2巻第3章 カーネル情報処理入門」

第3回「1巻第3章 パーティクルフィルタとその実装」

第2回「1巻第2章 グラフカット」

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s