2019-11-15

E資格対策振り返り（応用数学-情報理論-カルバック・ライブラー情報量(KLダイバージェンス)）

E資格参考書対策応用数学書籍機械学習情報理論確率

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として学習した応用数学の分野のうち、今回は、情報理論-カルバック・ライブラー情報量(KLダイバージェンス)を振り返ります。

深層学習では、以下の４つが既知のものとして登場してきます。

今回はこれらのうち、３つ目のカルバック・ライブラー情報量(KLダイバージェンス)について、振り返っていきます。

カルバック・ライブラー情報量(KLダイバージェンス)

カルバック・ライブラー情報量(KLダイバージェンス)

1.カルバック・ライブラー情報量(KLダイバージェンス)とは何か

カルバック・ライブラー情報量(KLダイバージェンス)とは、確率分布が２つある場合に、確率分布間の違いの大きさ（正確には違いますが、イメージ的には確率分布間の距離のイメージ）になります。

言葉で聞くと、ふーんという感じですが、結構ややこしいので、順を追って振り返って行きたいと思います。

2.事前分布と事後分布

事前分布とは、「ある知識を得る前」の確率分布で、事後分布は「ある知識を得た後」の確率分布になります。

例）壺の中のサイコロの目を当てる場合を考える。

サイコロの目の確率分布は、出目の１から６、一様に同じ確率なので

P（１）＝１／６、P（２）＝１／６、・・・、P（６）＝１／６

何も知らない状態なので、この確率分布が「事前分布」になります。

一方、「出目が奇数だった」という知識を得た場合の確率分布は、

P（１）＝１／３、P（２）＝０、・・・、P（６）＝０

こちらが知識を得た後の確率分布なので、「事後分布」になります。

知識を得る事により、確率分布が変化しています。

この時、「ある知識を得る」事で、事象あらかじめ知ることの難しさ（＝「自己情報量」）が減少したと考えられます。

サイコロの例で言えば、「奇数」という知識を得る事で、サイコロの目を知ることの難しさ（＝「自己情報量」）が減少したという事になります。

自己情報量については、前々回の記事をご参照いただくこととして、ここでは、詳細の説明は割愛いたします。

oregin-ai.hatenablog.com

3.カルバック・ライブラー情報量(KLダイバージェンス)

先ほど、「ある知識を得る」事で、「自己情報量」が減少すると言及いたしましたが、では、どの程度減少したか（サイコロの例でいうとどれだけ当てにくさが減ったか）が気になります。

事前分布をp(x)、事後分布をq(x)とすると、自己情報量は、それぞれ

f:id:kanriyou_h004:20191115180549p:plain :事前分布

f:id:kanriyou_h004:20191115180605p:plain :事後分布

となります。

どの程度減少したかは、自己情報量の差となるので

f:id:kanriyou_h004:20191115181429p:plain

f:id:kanriyou_h004:20191115181454p:plain

f:id:kanriyou_h004:20191115181519p:plain

となります。

最終的に事象を知ったときに得られる情報量が「ある知識を得る」前と後で、どれだけ減りそうかについては、事後の確率分布によって、自己情報量の差の期待値を求めることで得られます。

f:id:kanriyou_h004:20191115183636p:plain :事後の確率分布（事後分布）

f:id:kanriyou_h004:20191115183644p:plain ：自己情報量の差

f:id:kanriyou_h004:20191115184040p:plain :自己情報量の差の期待値

この最終的に事象を知った時に、得られる情報量がどれだけ減りそうか（＝自己情報量の差の期待値）が、まさに、「カルバック・ライブラー情報量（KLダイバージェンス）」に該当し、以下のように表現されます。

f:id:kanriyou_h004:20191115193208p:plain

では、この値が、なぜ「確率分布間の距離」のイメージにつながるかを、次の項で触れていきます。

4.なぜカルバック・ライブラー情報量が「確率分布間の距離」なのか

カルバックライブラー情報量は、「ある知識を得る」ことで、事前分布p(x)から事後分布q(x)に分布が変化する時に「得られる情報量がどれだけ減りそうか」を表していました。

逆にいうと、カルバックライブラー情報量が大きいとは、たくさんの情報量を持つ知識を与えないとp(x)からq(x)に変化できない（p(x)とq(x)は大きく異なる）という事になります。

カルバックライブラー情報量が小さいとは、少ない情報量を持つ知識でp(x)からq(x)に変化できる（p(x)とq(x)が似ている）という事になります。

この性質を持つ事から、カルバック・ライブラー情報量(KLダイバージェンス)は「確率分布間の距離」のイメージとなります。

※ただし、あくまでもイメージであり、q(x)からp(x)のKL情報量と、逆向きのp(x)からq(x)のKL情報量では値が異なるなど、「距離」の定義には当てはまらない性質もあります。

以上で、E資格の情報理論で頻出の数式の３つ目のカルバック・ライブラー情報量（KLダイバージェンス）にたどり着くことができました。

なかなかに難解な概念なので、何度も何度も復習しました。

まだまだ、理解しきれているわけではないのですが、みなさんの理解の一助となることができれば幸いです。

次回は、カルバック・ライブラー情報量（KLダイバージェンス）を機械学習に応用するための概念としてクロスエントロピーについて振り返っていきたいと思います。

今後も、引き続き、復習をかねて、E資格対策を振り返っていきたいと思います。

2019年8月31日（土）にE資格を受験して、合格しました！

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com

2019年3月9日（土）にG検定を受験し、見事合格できました！

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

【E資格対策に使った参考書】

ゼロから作るDeep Learning 2 自然言語処理編 [ 斎藤康毅 ]

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 [ 斎藤康毅 ]

入門Python　3 [ ビル・ルバノビック ]

2019-10-20

E資格対策振り返り（応用数学-情報理論-エントロピー）

E資格参考書対策応用数学書籍機械学習情報理論

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として、今回は、応用数学の分野のうち、情報理論-エントロピーを振り返ります。

深層学習では、以下の４つが既知のものとして登場してきます。

今回はこれらのうち、２つ目のエントロピーについて、振り返っていきます。

エントロピー
- 1.エントロピーとは何か
- 2.エントロピーを求める

エントロピー

1.エントロピーとは何か

エントロピーとは、ある確率分布に従った事象系において「どの事象が発生したか知ったときに、どの程度情報量を得られそうか」をあらわしています。

「エントロピーが大きい」＝「大きな情報量が得られそう」ということになります。

情報量の定義に立ち戻って考えると、情報量は「確率が低い事象（不確定な事象）が発生すればするほど大きくなる」ので、エントロピーが大きいということは、それだけ不確定な状態であることをあらわします。

このことから、エントロピーは、「事象系の曖昧さ度合をあらわす」と行った表現もされます。

2.エントロピーを求める

エントロピーは、「どの事象が発生したか知ったときに、どの程度情報量を得られそうか」で定義されることから、事象系が以下の確率で発生する時、

f:id:kanriyou_h004:20191020175023p:plain

それぞれの情報量は、

f:id:kanriyou_h004:20191020175414p:plain

となり、この各事象の自己情報量の期待値を求めることが、「どの事象が発生したか知ったときに、どの程度情報量を得られそうか」になります。

つまり、エントロピーは以下の通りで求まります。

f:id:kanriyou_h004:20191020180454p:plain

f:id:kanriyou_h004:20191020180747p:plain

以上で、E資格の情報理論で頻出の数式の２つ目のエントロピーにたどり着くことができました。

エントロピーの概念が理解できれば、自己情報量と期待値の組み合わせで求めることができるので、比較的理解がしやすかったです。

次回は、カルバック・ライブラー情報量について振り返っていきたいと思います。

今後も、引き続き、復習をかねて、E資格対策を振り返っていきたいと思います。

2019年8月31日（土）にE資格を受験して、合格しました！

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com

2019年3月9日（土）にG検定を受験し、見事合格できました！

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

【E資格対策に使った参考書】

ゼロから作るDeep Learning 2 自然言語処理編 [ 斎藤康毅 ]

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 [ 斎藤康毅 ]

入門Python　3 [ ビル・ルバノビック ]

2019-09-29

E資格対策振り返り（応用数学-情報理論-自己情報量）

E資格参考書対策応用数学書籍機械学習情報理論

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として、今回は、応用数学の分野のうち、情報理論-自己情報量を振り返ります。

深層学習では、以下の４つが既知のものとして登場してきます。

今回はこれらのうち、１つ目の自己情報量について、振り返っていきます。

自己情報量

自己情報量

1.情報量を定義する

まずは、情報量を定義します。

「情報」を知らないことを知るために必要なものと考えると、「情報」の「量」は、あらかじめ知ることがどれだけ困難であったかの度合いと考えられます。

「あらかじめ知ることが困難」、つまり「発生する確率が低い」事象ほど「情報量」が大きいと定義できます。

確率については、以下の記事をご参照ください。

oregin-ai.hatenablog.com

2.情報量の定量的把握（同一確率1/n）の場合

この時、確率Pで起こる事象Aが起きたことを知った時に得られる情報量について定量的にどのように測定するかを考えていきたいと思います。

等確率で生じる以下の事象の組を考えます。

f:id:kanriyou_h004:20190924165431p:plain

（等確率なので、どの事象の発生する確率も1/nとなります。）

この時、ｎ個のうちどれが発生したかを知った時に得られる情報量を　I（n）と定義します。

情報量を考えるにあたり、先ほどの事象Aを、以下の表のように、k個ずつのmグループに分けます。（n=mk）

f:id:kanriyou_h004:20190924170258p:plain

この時ある事象Axが起きたことを知る方法として以下の２通りを考えます。

【ケース１】

どのグループで起きたかを知る。・・・・I（ｍ）
そのあと、その中のどれが起きたかを知る。・・・I（ｋ）

【ケース２】

Axが起きたと直接知る。・・・・I（ｎ=mk）

最終的にAxを知るときに得られる情報量は【ケース１】（I(m)＋I(k)）でも、【ケース２】（I(mk））でも、同じであるため、以下の式が成り立ちます。

f:id:kanriyou_h004:20190929204026p:plain

この式をよく見ると「関数の出力の足し算が、その入力を掛け算した関数の出力と同じになる。」となっています。

この性質をもっている関数がないか考えます。

実は、前回振り返った対数関数が、以下の通り、まさにこの「関数の出力の足し算が、その入力を掛け算した関数の出力と同じになる。」で性質をもった関数だったのです。

f:id:kanriyou_h004:20190924154846p:plain

【前回の記事】E資格対策振り返り（応用数学-対数関数）

この性質を利用して、I(n)が以下の通りとおいて、X、Y、Zの値をそれぞれ求めていきたいと思います。

f:id:kanriyou_h004:20190929205400p:plain

●【性質１】I(1)＝０を利用
事象Aが、一通りしかない場合、最初から結果はわかっているので、情報量はゼロとなり、

f:id:kanriyou_h004:20190929205740p:plain

情報量の式のｎに１を当てはめると

f:id:kanriyou_h004:20190929210044p:plain

前半のlog1はゼロ

f:id:kanriyou_h004:20190929210109p:plain

よって、後半のZもゼロとなる

f:id:kanriyou_h004:20190929210149p:plain

●【性質２】I(2)＝1を利用
事象Aが、２通りの場合の情報量を「１」と定義します。

（この定義は、１０通りの場合を「１」とする場合などもありますが、ここでは、２通りの場合を採用します。）

f:id:kanriyou_h004:20190929211206p:plain

情報量の式のｎに２を当てはめると

f:id:kanriyou_h004:20190929211248p:plain

Xを求めるために、両辺をlog2で割って、分子の１を対数に変換

f:id:kanriyou_h004:20190929211406p:plain

最右辺の形は、底の変換公式に当てはまるので

f:id:kanriyou_h004:20190929211714p:plain

※底の変換公式については、【前回の記事】E資格対策振り返り（応用数学-対数関数）をご参照ください。

よって、

f:id:kanriyou_h004:20190929211922p:plain

【これまで求めたX、Zを代入】

f:id:kanriyou_h004:20190929212354p:plain

底の変換公式より、

f:id:kanriyou_h004:20190929212559p:plain

よって、I(n)は、以下となります。

f:id:kanriyou_h004:20190929212740p:plain

つまり、これが、同一確率（1/n）の場合にAxが分かった時の情報量ということになります。

3.情報量の定量的把握（異なる確率k/n＝ｐ）の場合

より一般的にするために、事象Axがそれぞれ異なる確率k/nで発生することを考えます。

まずは、先ほどと同様に、以下の通りにグループ化されたことを考えます。

f:id:kanriyou_h004:20190924170258p:plain

この時、一つ目のグループの中のどれかが生じる確率は、k/n＝ｐとなります。

この１グループ目が起きることを１つの事象と考えて、この事象が発生した情報量をＩとおいて、このＩを求めることで、確率k/n＝ｐの事象が分かったときの情報量を求めます。

【ケース１】

　Axを特定するときの情報量は、前述の同一確率（１／ｎ）の情報量なので

【ケース２】

１つ目のグループであることを知るときの情報量
グループの中のどれであるかを知るときの情報量

【ケース１】と【ケース２】は同じ情報量になるので

f:id:kanriyou_h004:20190929214538p:plain

Ｉについて解くと

f:id:kanriyou_h004:20190929214954p:plain

対数関数の減算の処理より

f:id:kanriyou_h004:20190929215058p:plain

この時、このグループが発生する確率ｋ／ｎ＝ｐだったので、

f:id:kanriyou_h004:20190929215336p:plain

対数関数の指数の処理より、最終的に求めたかった情報量Ｉは

f:id:kanriyou_h004:20190929215440p:plain

となります。

※対数関数の減算の処理、指数の処理については、【前回の記事】E資格対策振り返り（応用数学-対数関数）をご参照ください。

この式は、前述の同一確率（１／ｎ）の情報量においても、確率１／ｎ＝Ｐとおくことで、上記の式が得られるので、一般的な定義ができました。

f:id:kanriyou_h004:20190929212740p:plain 　→　 f:id:kanriyou_h004:20190929215440p:plain

ながながと説明してまいりましたが、やっとのことで、自己情報量の以下の式にたどり着くことができました。

f:id:kanriyou_h004:20190929215440p:plain

私の自己解釈も多々ありますが、こうすることで、自己情報量の式を丸暗記するよりも、応用が利くようになったかなぁと考えています。

次回は、エントロピーについて振り返っていきたいと思います。

今後も、引き続き、復習をかねて、E資格対策を振り返っていきたいと思います。

2019年8月31日（土）にE資格を受験して、合格しました！

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com

2019年3月9日（土）にG検定を受験し、見事合格できました！

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

【E資格対策に使った参考書】

ゼロから作るDeep Learning 2 自然言語処理編 [ 斎藤康毅 ]

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 [ 斎藤康毅 ]

入門Python　3 [ ビル・ルバノビック ]

2019-09-24

E資格対策振り返り（応用数学-対数関数）

E資格参考書対策応用数学書籍機械学習関数

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として、今回は、応用数学の分野のうち、対数関数を振り返ります。

高校時代にならったわかったようで、よくわからない関数ですが、深層学習では必要不可欠な関数なので、今一度、定義と法則を振り返っていきたいと思います。

対数関数

対数関数

1.対数関数とは

対数関数は、「指数関数の逆関数である。」と言われますが、ピンとこないので、掘り下げてみていきたいと思います。

まずは、指数関数は以下で定義されます。

f:id:kanriyou_h004:20190924152400p:plain

この関数の意味としては「aをx乗すると何でしょうか？」になるということになります。

逆関数ということは、ひっくり返して「yは、aの何乗でしょうか？」を求めることになります。これを表現した式が以下になります。

f:id:kanriyou_h004:20190924153051p:plain

この式が、「対数関数」になります。

数式だとわかりにくいですが、実例をみるとわかりやすいと思います。

例）以下の指数関数を考える。

この時、xが入力、ｙが出力になります。

x=3　のとき

となり、4が入力、81が出力になります。

（３の４乗は何でしょうか？→８１です。）

対数関数は、この逆だったので、81を入力として、4が出力となります。

（８１は、３の何乗でしょうか？→４乗です。）

入力８１をｘ、出力４をｙとおけば以下の対数関数が得られます。

2.対数関数の加算の処理

対数関数には、いろいろな性質がありますが、ディープラーニングで一番重要なのは以下の処理になります。

f:id:kanriyou_h004:20190924154846p:plain

この式は、左辺の１項目をｘ（Mがaのｘ乗）、２項目をy（Nがaのy乗）、右辺をz（MNがaのｚ乗）とおくと以下の式より、x+y=zが自明なため、上記の式が成り立ちます。この式は丸暗記でもよいと思います。

3.対数関数の減算の処理

加算時と同様に減算も処理できます。減算するときは割り算になるになるのは、負の乗数は、割り算になると考えればわかりやすいと思います。

f:id:kanriyou_h004:20190924161140p:plain

4.対数関数の指数の処理

f:id:kanriyou_h004:20190924160554p:plain

対数関数の入力が、ｂのｃ乗であった場合、その指数ｃは、外にでて掛け算になります。

以下と定義すると

対数の定義より、ｂはaのZ乗になるので

両辺をｃ乗すると

両辺の対数をとって

Zをもとの式に戻すと、最初の定義の式が得られます。

5.底の変換公式

あと、よく使う公式として底（上記で出てきたlogの右下にいる「a」に当たる数字）を変換する以下の公式があります。

f:id:kanriyou_h004:20190924162700p:plain

この式は、対数の定義から、aを何乗したらｂになるかの「何乗」の部分が左辺になるので、aの左辺乗がbになり、以下となります。

両辺を底がｃの対数をとると以下の通りになります。

「４．対数関数の指数の処理」を使うと、左辺は以下に変換できます。

両辺をで割ると以下の定義式が得られます。

結構トリッキーな処理ですが、たどり着けるとなかなか面白い処理だと思います。

以上、対数関数の振り返りでした。

対数は、高校時代にならってから使う機会もなく、いろいろと忘れてしまっていましたが、こうやって振り返ってみると、ほかの関数と違った性質がたくさんあり、面白いなと感じました。

次回以降は、前回の「確率」と合わせて情報理論についての振り返りを実施していきたいと思います。

2019年3月31日（土）にE資格を受験して、合格しました！

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com

2019年3月9日（土）にG検定を受験し、見事合格できました！

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

【E資格対策に使った参考書】

ゼロから作るDeep Learning 2 自然言語処理編 [ 斎藤康毅 ]

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 [ 斎藤康毅 ]

入門Python　3 [ ビル・ルバノビック ]

2019-09-23

E資格対策振り返り（応用数学-確率）

E資格参考書対策応用数学書籍復習確率

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として、今回は、応用数学の分野のうち、確率を振り返ります。直接確率を求める問題が出るかはわかりませんが、過去問や例題等を解くうえでは、確率の考え方が理解できたほうがすっと入ってきます。

では、一般的な確率の考え方から、確率変数、確率分布、期待値の順に振り返っていきたいと思います。

確率

確率

1.確率とは

まずは、確率を定義します。

「試行」に対して、「事象A」が起こる確率P（A)は、以下の通り定義されます。

【Case_A】：事象Aが起こるすべてのケースの数

【All_Cases】：起こりうるすべての事象のケースの数

【試行】：同一の環境で繰り返し実施可能で、その結果が確率的に特定される観測（例：サイコロ振り、コイントス）

【事象】：「試行」の結果起こる事柄（例：サイコロで３が出る。コイントスで表がでる。）

サイコロの面が６面ありますので、サイコロを１回投げるときに３が出る確率は、６分の１となり、コイントスで表が出る確率は２分の１となるのは、直感的にもわかりやすいので、確率の定義は、わかりやすいです。

2.確率変数とは

では、次に「確率変数」についてです。

「変数」とついただけで、急に難しく感じてしまいますが、プログラミングの経験がある方にとっては、「ある確率で値が決まる変数」と解釈すれば、しっくりくると思います。

例えば、サイコロを１回振る際の出た目を、変数「X」とすると、この「X」は確率変数となります。

＜参考＞

サイコロの場合、どの目が出る確率も６分の１なので、確率変数Xが各値をとる確率は、以下の通りとなります。

X=1となる確率は、６分の１

X=2となる確率は、６分の１

・・・

X=6となる確率は、６分の１

なお、確率変数には、以下の２つの変数が存在します。

・離散変数：確率変数の値が、サイコロやコイントスのように、非連続な変数

・連続変数：確率変数の値が、ある１日の最高気温や、消費電力量のように連続的な変数

E資格の対策としては、まずは離散変数での理解を深める必要があります。離散変数が一通り理解できれば、連続変数の理解もしやすいと思います。

3.確率分布とは

確率変数が、「ある確率で値が決まる変数」であったことに対して、確率分布は、「確率変数がある値をとる場合の確率」の分布と考えることができまます。

少しややこしいですが、実例を見ると簡単です。

例）サイコロを２個投げて、出た目の合計を確率変数Xと定義。

Xのとりうる値をｘとおくと

このとき、X=2となる場合は、出た目が両方とも１である場合の１通りのみのため、P(X=2)は、以下のとおり。

同様に、X=3となる場合は、出た目が(1,2)の場合か、(2,1)の場合の２通りしかないため、P(X=3)は、以下の通り。

すべてのｘに対して確率を求めると、以下の図のようになる。

上記のように、Xが各値ｘをとる確率P(X=x)の分布を、「確率分布」と呼びます。

4.期待値とは

「期待値」とは、ある確率で起こる事象について、発生すると思われる、おおよその値のことをいい、期待値E（X)は、以下の計算式で求めます。

f:id:kanriyou_h004:20190923131536p:plain

つまり、期待値は、とる値ｘと、その値となる確率P(X=x）の積をすべて足し合わせた数値ということになります。

すべての事象が同確率で発生する場合は、「平均値」と同等になるので、正しくはないかもしれませんが、感覚的に「確率を考慮した平均値」と理解しています。）

言葉で表現すると難しいですが、こちらも、実例で考えるとわかりやすいと思います。

例）確率分布の事例で出した２個のサイコロの目の和の場合以下の通りとなります。

サイコロを２個振ると、出た目の合計は、おおよそ「７」となり、これが期待値ということになります。

期待値は、E資格の学習を進めるうえで、今後出てくる、情報理論等を理解する上で重要になってきますので、この概念を理解しておくことをお勧めします。

今回は、確率の基礎の部分について、振り返ってみました。

また、確率の部分については、以下の書類も参考にして勉強しました。

（私は手持ちの版で学習しましたが、最新は第２版がでています。）

Think　Stats第2版プログラマのための統計入門 [ アレン・B．ダウニー ]

今後も、引き続き、復習をかねて、E資格対策を振り返っていきたいと思います。

2019年3月31日（土）にE資格を受験して、合格しました！

E資格対策として勉強の進め方や、参考書などをまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

oregin-ai.hatenablog.com

2019年3月9日（土）にG検定を受験し、見事合格できました！

受験の体験記や勉強法などを別のブログにまとめました。

これから受験される方がいらっしゃいましたらご参考まで。

g-kentei.hatenablog.com

【E資格対策に使った参考書】

ゼロから作るDeep Learning 2 自然言語処理編 [ 斎藤康毅 ]

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理論と実装 [ 斎藤康毅 ]

入門Python　3 [ ビル・ルバノビック ]

2019-09-16

E資格対策振り返り（応用数学-特異値分解）

E資格参考書対策応用数学書籍機械学習

E資格（JDLA Deep Learning for ENGINEER 2019 #2）対策として、今回は、応用数学の分野のうち、特異値分解を振り返ります。特異値分解は、過去問に言及されている受験者の方のサイト等を拝見する限りでは、前回掲載した、固有値分解とともに頻出問題のようです。

前回の固有値分解については、こちらをご参照ください。

>>E資格対策振り返り（応用数学-固有値、固有ベクトル、固有値分解）

特異値分解

1.固有値分解から拡張してみる

前回の固有値分解が、

f:id:kanriyou_h004:20190916103951p:plain

Aは、n行n列の正方行列

Pは、固有ベクトルを列に並べたn行n列の正方行列

Λは、固有値を降順に並べた対角行列

だったので、m行n列に拡張して、以下を求めることを目指します。

f:id:kanriyou_h004:20190916104807p:plain

この時、U,Vは直交行列、Σは特異値と呼ばれる $\sigma_{i}$ を降順にi行i列に並べ残りは0となる行列です。

f:id:kanriyou_h004:20190916105350p:plain

特異値 $\sigma_{i}$ は、 $A$ の転置行列 $A^T$ をかけた $AA^T$ の固有値の平方根になります。

2.各行列をどう求めるのか

試験対策を考えるのであれば、穴埋めになることを想定して、以下を覚えておくと、の回答しやすいと思います。

U,Vは直交行列である事を利用すると、任意の2列の内積を求めるとゼロになる
１の例

上記のとき、２列目と３列目の内積がゼロになるので、以下でaが求められる。
また、U,Vの各列は正規直交系なので、各列のL2ノルムは1になる。
2の例
１の例で、３列目のL2ノルムが１になるので、以下でaで求められる。ただし、一意に特定できないので、他の法則と組み合わせる必要がある。
固有値の積は、行列式に等しい。
３の例
固有値λ1＝１が分かっているとき、以下の行列の残りの固有値λ2を求める。

固有値の積が行列式に等しいので、以下でλ2が求まる。
$AA^T$ の固有値の平方根がΣの対角に降順に並ぶ。
４の例
Aが2行3列であった場合、３の例で求めた固有値を使って、Σは以下の通りとなる。