Deep Learningの全体イメージ(Deep Learning勉強の紹介編②)

Deep LearningのブームになったGoogle研究者の猫認識は前回紹介した。Deep Learningの詳細アルゴリズムへ行く前に、このページは全体仕組みについて触れたい。とりあえず、参考になったスライドを貼り付けただけ。

次の解釈は以下のリンクに参照

http://d.hatena.ne.jp/Zellij/20130608/p1

ニューラルネットワークが複数の層を成す。手前のネットワークの出力が、次のネットワークの入力となる。
RBM

学習は、最初の層から順番に行われる。1つの層の学習が終わると、次の層の学習に移る。出力を逆変換して戻した時に、入力に近づくように調整(学習)する。

hidden
最初の層は、エッジなどの局所的な特徴の抽出が行われ、階層が上になるほど、より大域的な特徴(概念)を識別できるようになる。
layer

この解釈はここにも書いた (zoro)。

で、 Deep Learningの枠で捉えた意味は?

このリンクで。

「この手法の何がすごいかというと,入力データは生の画像であるにも拘らず,そこから,意味や規則をa prioriに与えることなく,学習させるだけで,極めて抽象度の高い「モノ」に対応する出力が得られていたという点である.これまでの画像認識などでは,例えばSIFT(Scale-invariant feature transform)などといった(人間が工夫を凝らして考えだした)特徴量をまず画像から抽出し,その特徴量を入力として学習させていたのである.しかし,Deep Learningでは,入力は画像の生データそのものであり,特徴抽出も学習により自動的に行ってくれる.学習後のネットワークは,入力に近い浅層から深い層へと向かうにつれて,より受容野が広く,抽象的な表現になっていくという.

人間の脳の視覚処理系でも,順次的に特徴抽出が行われており,入力に近い層から深い層へと進むにつれてその表現は抽象度を増していく。例えば,網膜では,まず光に反応する視細胞がある。さらにそこから網膜内で数段のニューロンを経ると,受容野の中心に光が入ると刺激され,その周辺に光が入ると抑制されるon-center cellとその逆に,受容野の中心への入力で抑制,その周囲への入力で刺激されるoff-center cellが存在する。このように網膜でも簡単な情報処理が行われているのだ。(網膜では,on-center, off-centerだけでなく,さらに複雑な処理も行われていると考えられている。例えば,方位選択性をもつニューロンが網膜にもごく少数ながら存在すると言われている.)

視覚入力は網膜から視神経を通って視床の外側膝状体で中継され,後頭葉の1次視覚野(primary visual cortex, V1)に投射する。1次視覚野には方位選択性(orientation selectivity)や方向選択性(direction selectivity)をもつニューロンが存在している.(ネコを使ったHubelとWieselの有名な研究がありますね)。例えば,ある角度の方位選択性ニューロンは,受容野がその角度に並んだon-center cellからの入力を統合することにより構成することができると容易に想像できる」。

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s