俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

俺って、おバカさんなので、とっても優秀な人工知能を作って代わりに頑張ってもらうことにしました。世界の端っこでおバカな俺が夢の達成に向けてチマチマ頑張る、そんな小さなお話です。現在はG検定、E資格に合格し、KaggleやProbSpaceのコンペに参画しながら、Pythonや機械学習、統計学、Dockerなどの勉強中です。学習したことをブログにアウトプットすることで、自分の身に着けていきたいと思います。まだまだ道半ばですが、お時間がありましたら見て行ってください。

E資格対策振り返り（応用数学-情報理論-自己情報量）

E資格参考書対策応用数学書籍機械学習情報理論

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として、今回は、応用数学の分野のうち、情報理論-自己情報量を振り返ります。

深層学習では、以下の４つが既知のものとして登場してきます。

今回はこれらのうち、１つ目の自己情報量について、振り返っていきます。

自己情報量

自己情報量

1.情報量を定義する

まずは、情報量を定義します。

「情報」を知らないことを知るために必要なものと考えると、「情報」の「量」は、あらかじめ知ることがどれだけ困難であったかの度合いと考えられます。

「あらかじめ知ることが困難」、つまり「発生する確率が低い」事象ほど「情報量」が大きいと定義できます。

確率については、以下の記事をご参照ください。

oregin-ai.hatenablog.com

2.情報量の定量的把握（同一確率1/n）の場合

この時、確率Pで起こる事象Aが起きたことを知った時に得られる情報量について定量的にどのように測定するかを考えていきたいと思います。

等確率で生じる以下の事象の組を考えます。

f:id:kanriyou_h004:20190924165431p:plain

（等確率なので、どの事象の発生する確率も1/nとなります。）

この時、ｎ個のうちどれが発生したかを知った時に得られる情報量を　I（n）と定義します。

情報量を考えるにあたり、先ほどの事象Aを、以下の表のように、k個ずつのmグループに分けます。（n=mk）

f:id:kanriyou_h004:20190924170258p:plain

この時ある事象Axが起きたことを知る方法として以下の２通りを考えます。

【ケース１】

どのグループで起きたかを知る。・・・・I（ｍ）
そのあと、その中のどれが起きたかを知る。・・・I（ｋ）

【ケース２】

Axが起きたと直接知る。・・・・I（ｎ=mk）

最終的にAxを知るときに得られる情報量は【ケース１】（I(m)＋I(k)）でも、【ケース２】（I(mk））でも、同じであるため、以下の式が成り立ちます。

f:id:kanriyou_h004:20190929204026p:plain

この式をよく見ると「関数の出力の足し算が、その入力を掛け算した関数の出力と同じになる。」となっています。

この性質をもっている関数がないか考えます。

実は、前回振り返った対数関数が、以下の通り、まさにこの「関数の出力の足し算が、その入力を掛け算した関数の出力と同じになる。」で性質をもった関数だったのです。

f:id:kanriyou_h004:20190924154846p:plain

【前回の記事】E資格対策振り返り（応用数学-対数関数）

この性質を利用して、I(n)が以下の通りとおいて、X、Y、Zの値をそれぞれ求めていきたいと思います。

f:id:kanriyou_h004:20190929205400p:plain

●【性質１】I(1)＝０を利用
事象Aが、一通りしかない場合、最初から結果はわかっているので、情報量はゼロとなり、

f:id:kanriyou_h004:20190929205740p:plain

情報量の式のｎに１を当てはめると

f:id:kanriyou_h004:20190929210044p:plain

前半のlog1はゼロ

f:id:kanriyou_h004:20190929210109p:plain

よって、後半のZもゼロとなる

f:id:kanriyou_h004:20190929210149p:plain

●【性質２】I(2)＝1を利用
事象Aが、２通りの場合の情報量を「１」と定義します。

（この定義は、１０通りの場合を「１」とする場合などもありますが、ここでは、２通りの場合を採用します。）

f:id:kanriyou_h004:20190929211206p:plain

情報量の式のｎに２を当てはめると

f:id:kanriyou_h004:20190929211248p:plain

Xを求めるために、両辺をlog2で割って、分子の１を対数に変換

f:id:kanriyou_h004:20190929211406p:plain

最右辺の形は、底の変換公式に当てはまるので

f:id:kanriyou_h004:20190929211714p:plain

※底の変換公式については、【前回の記事】E資格対策振り返り（応用数学-対数関数）をご参照ください。

よって、

f:id:kanriyou_h004:20190929211922p:plain

【これまで求めたX、Zを代入】

f:id:kanriyou_h004:20190929212354p:plain

底の変換公式より、

f:id:kanriyou_h004:20190929212559p:plain

よって、I(n)は、以下となります。

f:id:kanriyou_h004:20190929212740p:plain

つまり、これが、同一確率（1/n）の場合にAxが分かった時の情報量ということになります。

3.情報量の定量的把握（異なる確率k/n＝ｐ）の場合

より一般的にするために、事象Axがそれぞれ異なる確率k/nで発生することを考えます。

まずは、先ほどと同様に、以下の通りにグループ化されたことを考えます。

f:id:kanriyou_h004:20190924170258p:plain

この時、一つ目のグループの中のどれかが生じる確率は、k/n＝ｐとなります。

この１グループ目が起きることを１つの事象と考えて、この事象が発生した情報量をＩとおいて、このＩを求めることで、確率k/n＝ｐの事象が分かったときの情報量を求めます。

【ケース１】

　Axを特定するときの情報量は、前述の同一確率（１／ｎ）の情報量なので

【ケース２】

１つ目のグループであることを知るときの情報量
グループの中のどれであるかを知るときの情報量

【ケース１】と【ケース２】は同じ情報量になるので

f:id:kanriyou_h004:20190929214538p:plain

Ｉについて解くと

f:id:kanriyou_h004:20190929214954p:plain

対数関数の減算の処理より

f:id:kanriyou_h004:20190929215058p:plain

この時、このグループが発生する確率ｋ／ｎ＝ｐだったので、

f:id:kanriyou_h004:20190929215336p:plain

対数関数の指数の処理より、最終的に求めたかった情報量Ｉは

f:id:kanriyou_h004:20190929215440p:plain

となります。

※対数関数の減算の処理、指数の処理については、【前回の記事】E資格対策振り返り（応用数学-対数関数）をご参照ください。

この式は、前述の同一確率（１／ｎ）の情報量においても、確率１／ｎ＝Ｐとおくことで、上記の式が得られるので、一般的な定義ができました。

f:id:kanriyou_h004:20190929212740p:plain 　→　 f:id:kanriyou_h004:20190929215440p:plain

ながながと説明してまいりましたが、やっとのことで、自己情報量の以下の式にたどり着くことができました。

f:id:kanriyou_h004:20190929215440p:plain

私の自己解釈も多々ありますが、こうすることで、自己情報量の式を丸暗記するよりも、応用が利くようになったかなぁと考えています。

次回は、エントロピーについて振り返っていきたいと思います。

今後も、引き続き、復習をかねて、E資格対策を振り返っていきたいと思います。

2019年8月31日（土）にE資格を受験して、合格しました！

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com

2019年3月9日（土）にG検定を受験し、見事合格できました！

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

【E資格対策に使った参考書】

ゼロから作るDeep Learning 2 自然言語処理編 [ 斎藤康毅 ]

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 [ 斎藤康毅 ]

入門Python　3 [ ビル・ルバノビック ]