俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

俺って、おバカさんなので、とっても優秀な人工知能を作って代わりに頑張ってもらうことにしました。世界の端っこでおバカな俺が夢の達成に向けてチマチマ頑張る、そんな小さなお話です。現在はG検定、E資格に合格し、KaggleやProbSpaceのコンペに参画しながら、Pythonや機械学習、統計学、Dockerなどの勉強中です。学習したことをブログにアウトプットすることで、自分の身に着けていきたいと思います。まだまだ道半ばですが、お時間がありましたら見て行ってください。

E資格対策振り返り(応用数学-情報理論-カルバック・ライブラー情報量(KLダイバージェンス))

E資格(JDLA Deep Learning for ENGINEER 2019 #2)対策として学習した応用数学の分野のうち、今回は、情報理論-カルバック・ライブラー情報量(KLダイバージェンス)を振り返ります。

深層学習では、以下の4つが既知のものとして登場してきます。

  1. 自己情報量
  2. エントロピー
  3. カルバック・ライブラー情報量(KLダイバージェンス)
  4. クロスエントロピー

今回はこれらのうち、3つ目のカルバック・ライブラー情報量(KLダイバージェンス)について、振り返っていきます。

 

カルバック・ライブラー情報量(KLダイバージェンス)

1.カルバック・ライブラー情報量(KLダイバージェンス)とは何か

カルバック・ライブラー情報量(KLダイバージェンス)とは、確率分布が2つある場合に、確率分布間の違いの大きさ(正確には違いますが、イメージ的には確率分布間の距離のイメージ)になります。

言葉で聞くと、ふーんという感じですが、結構ややこしいので、順を追って振り返って行きたいと思います。 

2.事前分布と事後分布

事前分布とは、「ある知識を得る前」の確率分布で、事後分布は「ある知識を得た後」の確率分布になります。

例)壺の中のサイコロの目を当てる場合を考える。

サイコロの目の確率分布は、出目の1から6、一様に同じ確率なので

P(1)=1/6、P(2)=1/6、・・・、P(6)=1/6

何も知らない状態なので、この確率分布が「事前分布」になります。

一方、「出目が奇数だった」という知識を得た場合の確率分布は、

P(1)=1/3、P(2)=0、・・・、P(6)=0

こちらが知識を得た後の確率分布なので、「事後分布」になります。

知識を得る事により、確率分布が変化しています。

この時、「ある知識を得る」事で、事象あらかじめ知ることの難しさ(=「自己情報量」)が減少したと考えられます。

サイコロの例で言えば、「奇数」という知識を得る事で、サイコロの目を知ることの難しさ(=「自己情報量」)が減少したという事になります。

自己情報量については、前々回の記事をご参照いただくこととして、ここでは、詳細の説明は割愛いたします。

oregin-ai.hatenablog.com

3.カルバック・ライブラー情報量(KLダイバージェンス)

先ほど、「ある知識を得る」事で、「自己情報量」が減少すると言及いたしましたが、では、どの程度減少したか(サイコロの例でいうとどれだけ当てにくさが減ったか)が気になります。

事前分布をp(x)、事後分布をq(x)とすると、自己情報量は、それぞれ

f:id:kanriyou_h004:20191115180549p:plain:事前分布

f:id:kanriyou_h004:20191115180605p:plain:事後分布

となります。

どの程度減少したかは、自己情報量の差となるので

f:id:kanriyou_h004:20191115181429p:plain

f:id:kanriyou_h004:20191115181454p:plain

f:id:kanriyou_h004:20191115181519p:plain

となります。

最終的に事象を知ったときに得られる情報量が「ある知識を得る」前と後で、どれだけ減りそうかについては、事後の確率分布によって、自己情報量の差の期待値を求めることで得られます。

f:id:kanriyou_h004:20191115183636p:plain:事後の確率分布(事後分布)

f:id:kanriyou_h004:20191115183644p:plain:自己情報量の差

f:id:kanriyou_h004:20191115184040p:plain:自己情報量の差の期待値

 

この最終的に事象を知った時に、得られる情報量がどれだけ減りそうか(=自己情報量の差の期待値)が、まさに、「カルバック・ライブラー情報量(KLダイバージェンス)」に該当し、以下のように表現されます。

f:id:kanriyou_h004:20191115193208p:plain

では、この値が、なぜ「確率分布間の距離」のイメージにつながるかを、次の項で触れていきます。

4.なぜカルバック・ライブラー情報量が「確率分布間の距離」なのか

カルバックライブラー情報量は、「ある知識を得る」ことで、事前分布p(x)から事後分布q(x)に分布が変化する時に「得られる情報量がどれだけ減りそうか」を表していました。

逆にいうと、カルバックライブラー情報量が大きいとは、たくさんの情報量を持つ知識を与えないとp(x)からq(x)に変化できない(p(x)とq(x)は大きく異なる)という事になります。

カルバックライブラー情報量が小さいとは、少ない情報量を持つ知識でp(x)からq(x)に変化できる(p(x)とq(x)が似ている)という事になります。

この性質を持つ事から、カルバック・ライブラー情報量(KLダイバージェンス)は「確率分布間の距離」のイメージとなります。

※ただし、あくまでもイメージであり、q(x)からp(x)のKL情報量と、逆向きのp(x)からq(x)のKL情報量では値が異なるなど、「距離」の定義には当てはまらない性質もあります。

 

以上で、E資格の情報理論で頻出の数式の3つ目のカルバック・ライブラー情報量(KLダイバージェンス)にたどり着くことができました。

なかなかに難解な概念なので、何度も何度も復習しました。

まだまだ、理解しきれているわけではないのですが、みなさんの理解の一助となることができれば幸いです。

 

次回は、カルバック・ライブラー情報量(KLダイバージェンス)を機械学習に応用するための概念としてクロスエントロピーについて振り返っていきたいと思います。

今後も、引き続き、復習をかねて、E資格対策を振り返っていきたいと思います。

 

2019年8月31日(土)にE資格を受験して、合格しました!

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com 

 

 2019年3月9日(土)にG検定を受験し、見事合格できました!

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

 【E資格対策に使った参考書】