俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

俺って、おバカさんなので、とっても優秀な人工知能を作って代わりに頑張ってもらうことにしました。世界の端っこでおバカな俺が夢の達成に向けてチマチマ頑張る、そんな小さなお話です。現在はG検定、E資格に合格し、KaggleやProbSpaceのコンペに参画しながら、Pythonや機械学習、統計学、Dockerなどの勉強中です。学習したことをブログにアウトプットすることで、自分の身に着けていきたいと思います。まだまだ道半ばですが、お時間がありましたら見て行ってください。

俺人トップページ

目次


最近の記事

 


まとめ記事

これまで私の取り組んできた内容のまとめ記事です。

2022年上半期

2021年下半期

 2021年上半期

2020年 年間

2020年10月〜11月

2020年8月〜9月

2019年2月〜2020年8月

資格関連

G検定、E資格、AWS認定の体験記などです。

G検定

E資格

AWS認定


セキュリティ・ガバナンス関連

AIに関するセキュリティやガバナンスに関する記事です。

ガバナンス


コンペ関連

各種コンペサイトでの振り返りや、記事のまとめです。

ProbSpace

Signate

Nishika

Solafune

Kaggle


講座・書籍関連

受講した講座や取り組んだ書籍の記録です。

米国AI開発者がゼロから教えるDocker講座(U-demy)

 

GCI 2019 Winter(東京大学グローバル消費インテリジェンス寄付講座)

GCI 2019 Winterを無事修了できました!~その1~

GCI 2019 Winterを無事修了できました!~その2~

Pythonによるスクレイピング機械学習テクニック

オライリー・ジャパン社「実践 機械学習システム」


実装紹介など

Pythonでの実装や、環境構築などの記事です。

自然言語処理

SVM

自作パソコン


雑記

その他、イベント参加記録などです。

AI・人工知能EXPO2019

f:id:kanriyou_h004:20211115150125j:plain

以上

 

 

 

AWS Certified Cloud Practitioner (CLF-C01) 合格体験記(問題集や学習法)

AWS Certified Cloud Practitioner (CLF-C01) に挑戦して無事合格できました!

私が使用した問題集や学習法について紹介させていただきます。

この資格は、これからAWSで開発や運用を行うにあたって、基本的なことを系統だてて理解するにはよい資格だと思います。これからの受験を検討されている皆さんの参考になる情報をご提供できればと思います。

【目次】

1.受験の動機

今後、業務としてAWSで構築されたシステムのセキュリティについて評価等を行っていく機会が多くなりそうだという点と、コンペ等でクラウドを使いこなせるようになるとさらに上位を目指せるかもという淡い期待から、AWSの基本を理解するために受験しました。

2.私の前提知識

受験を決意して勉強を始めたときの私の前提知識は以下のような状況です。

  • AWSについては触ったことがありませんでした。
  • 他のクラウドとしてはAzureを少し触ったことがある程度。
  • 実業務としては、システム開発・運用に通算20年程度従事していました。
  • システム関連の資格としては、情報処理安全確保支援士、公認情報システム監査人CISA)、E資格、G検定保有

3.勉強方法

勉強期間は約1カ月でした。勉強の流れは以下の通りです。

ステップ1:試験の把握(初日)

まずは、以下の試験ガイドから、試験の範囲や対象となるサービスを確認しました。

2022年11月28日時点で、試験時間は90分、問題数65問となっています。(最新の情報は、リンク先にてご確認ください。)

AWS Certified Cloud Practitioner 認定 | AWS 認定 | AWS(Webサイト)

試験ガイド(PDF直リンク)

試験問題サンプル(PDF直リンク)

ステップ2:AWS公式トレーニングを受講する(1週目)

以下のAWS公式トレーニングを受講しました。(ログインが必要ですが、無償でした。)

まったくAWSを知らない状況からでも、クラウド上での処理を、カフェの店舗での処理に例えて説明されていてすごくわかりやすかったです。

また、練習問題も随所にちりばめられており試験の感覚がつかめます。

AWS Cloud Practitioner Essentials (Japanese) 日本語実写版

ステップ3:Udemyの模擬試験を解説を読みながら解く(2週目~3週目)

公式トレーニングの後は、以下のUdemyの模擬試験を解説を読みながら解きました。(有料ですが通常時2,400円でセール中だと1,200円くらいで購入できると思います。

基本レベル(65問×2回)→本番レベル(65問×3回)→応用レベル(195問×1回)と、徐々に難易度を上げられるので、自身のレベルに応じて問題を解くことができました。

www.udemy.com

取り組み方としては、各レベルごとに1回解いて、解説をじっくり読んで、間違えたところ・解けなかったところを理解する、を繰り返しました。

基本レベルをすらすら解けるまで繰り返し取り組んだあとに、本番レベルに着手して、本番レベルがすらすら解けるようになったら応用レベルに着手するという順番で取り組みました。

ステップ4:Udemyの模擬試験をひたすら解く(4週目)

あとは、各レベルの模擬試験をひたすら解きました。

最終的には、応用レベルの195問でも、90%以上を常に出せるようになるまで繰り返しました。

4.試験当日

試験はオンライン受験を選択したので、事前に接続試験を実施するとともに受講時の机の上からものを全部撤去してチェックイン(試験官にWeb経由で受験環境のチェックや本人確認を実施してもらいます。)を行いました。

机の脚元に置いてあったゴミ箱も撤去するよう指示があったので、机上だけでなく、机の周りにもものを置かないほうが良いです。

試験自体は、試験時間の90分をまたず、見直しも含めて60分程度で完了しました。

完了後、画面上に「合格」の文字が出たので、小さくガッツポーズをとりました。

しかし、その後、自身のポータルページ等には試験結果はまだ出ておらず、改めて確認することができなかったので、正式にポータルページに結果が通知されるまでは、不安でいっぱいでした。

5.試験結果

試験結果は翌日には、ポータルページから確認できることができて、一安心することができました。

目標としては900以上のスコアを目指していたのですが、残念ながらスコア838と届きませんでした。

 

6.感想

今回、AWSの試験を受験してみて、学習のための環境がとてもととのっていると感じました。公式からとても丁寧なトレーニングサイトが提供されているのは、ありがたかったです。

基本は十分理解することができたので、試験中にわからなかったことがあったサービスについては、再度見直すとともに、更に上位のAWS認定試験にも挑戦していきたいと思います。

引き続き頑張ります。

 

『AI原則実践のためのガバナンス・ガイドライン ver. 1.1』を読む【後編】

今回は、前回に引き続き経済産業省の「AI原則の実践の在り方に関する検討会」から2022年1月に公開されている『AI原則実践のためのガバナンス・ガイドライン ver. 1.1』を、自分なりにゆっくり読み解いていきたいと思います。

www.meti.go.jp

これからAIの開発や運用を行う皆さんの参考になる情報をご提供できればと思います。

また、G検定でも時事的な法律や制度などの問題も出題されているということなので、受験される方の何かの参考になれれば幸いです。

【目次】

1.今回読んだ範囲の概要

今回は、「C. AI ガバナンス・ガイドライン」を読み解きました。

この章がこのガイドラインの本体となっており、「環境・リスク分析」、「ゴール設定」、「システムデザイン(AIマネジメントシステムの構築)」、「運用」、「評価」の5つの行程を実施したうえで、改めて分析を実施する「環境・リスクの再分析」の行程を加えた合計6つの行程で構成されています。

また、それぞれの行程で実践すべき行動目標と、行動目標達成に向けた実践例が記載されています。

ざっくり以下のような内容が記載されていました。

環境・リスク分析

  • 正負のインパクト(特に負のインパクト)について、適切に評価し、社会の受容度や、自社のAI習熟度に照らし合わせて評価する必要がある。

ゴール設定

  • 環境・リスク分析の結果を踏まえてAIガバナンスのゴールを設定すべき。設定しないのであれば、設定しない理由をステークホルダーに説明すべき。

AIマネジメントシステムデザイン

  • AIシステムそれぞれについて、ゴールとの乖離を適時に特定し対策を実施するプロセスをマネジメントシステムに組み込むとともに、そのプロセスを実施できる人材を育成すべき。
  • 自社・自部門で解決できない課題は、外部から支援を仰ぐとともに、インシデント発生時には利用者の負担を最小限にするべき。

運用

  • AIマネジメントシステムの運用状況および個々のAIシステムの運用状況について記録し、積極的に開示するべき。開示しない場合は開示しない理由を説明すべき。

評価

  • AIマネジメントシステムのが適切に機能しているかを検証するとともに、社外の関係者に意見を求めるべき。

環境・リスクの再分析

  • 運用・評価後に改めて、環境・リスクの再分析を実施すべき。

では、各章をもう少し掘り下げて読み解いていきます。

2.「C. AI ガバナンス・ガイドライン」の冒頭部分を読み解く

冒頭部分には、このガイドラインは、杓子定規に行動目標を実践することが大切なのではなく、行動目標の意義を理解して活用することを期待すると記載されています。

そして、その取り組みは一過性のものではなく、AIシステム開発者・運用者のアジャイル・ガバナンスとして、繰り返し環境・リスクの再分析を実施すべきとされています。

AIシステム開発・運用者のアジャイル・ガバナンス

3.「1. 環境・リスク分析 」を読み解く

この章は、AIシステムのガバナンスを考えるうえで、最初に実施する環境・リスク分析にあたり、以下の3つの視点で行動目標を記載しています。

(1)AIシステムがもたらしうる正負のインパクトを理解する

(2)AIシステムの開発や運用に関する社会的受容を理解する

(3)自社のAI習熟度を理解する

1点目の正負のインパクトについては、AIのプロジェクトの多くは「費用対効果があるか」といった正のインパクトに注目されがちです。

しかしながら、精度がどれだけ高くても1回の誤りで社会的に問題がある結果を出してしまうケースなど、負のインパクトにも注目しなくてはならない旨が行動目標として記載されています。

また、負のインパクトについても、経営層のリーダーシップに基づいて、経営層に報告・共有・理解の更新を実施すべきとなっています。

この点は、導入での正のインパクトが大きければ大きいほど見落とされがちな点なので、注意が必要だと思われます。

2点目の社会的受容については、直接的なステークホルダーだけでなく、社会全体として潜在的ステークホルダーの意見にも耳を傾けるべきとしています。

AIは新しい技術なので、まだ定義自体も人によって理解が異なっているので、常にステークホルダーの意見を確認しつつ、新しい視点を更新しながら進めていくことが行動目標となっています。

3点目の自社のAIの習熟度については、自社の従業員の人数や経験の程度、技術及び倫理に関するリテラシーの程度等に基づいて評価することが行動目標となっています。

また、1点目で評価した負のインパクトが軽微であると判断し、AI習熟度を評価しない場合は、その理由をステークホルダーに説明するべきとしています。

私の感想としては、負のインパクトが軽微であったとしても、自社のAI習熟度が十分でなかった場合、正のインパクトも享受できなくなる可能性があるので、いずれにせよ自社の習熟度は評価しておいたほうがよいと思いました。

4.「2. ゴール設定」を読み解く

続いてゴール設定についてです。

この章は、前章の分析の結果を踏まえて、AIガバナンス・ゴール(AIポリシー)を設定するかどうかを検討したうえで、ゴールを設定する、もしくは設定しないと判断する場合はステークホルダーに理由を含めて説明することを行動目標としています。

また、自社のAIガバナンス・ゴールに変えて、内閣府の『「AI戦略2019」の概要と取り組み状況』に記載されている「人間中心のAI社会原則」をゴールとしてもよいとされています。

5.「3. システムデザイン(AI マネジメントシステムの構築) 」を読み解く

この章は、以下の4つの視点で、ゴール達成のために必要な、AIマネジメントシステムを構築する旨が記載されています。

AIシステムのデザインではなく、AIマネジメントシステムのシステムデザインである点に留意が必要です。

(1)AIガバナンス・ゴールからの乖離の評価と乖離への対応を必須プロセスとする

(2)AIマネジメントシステムを担う人材のリテラシーを向上させる

(3)適切な情報共有等の事業者間・部門間の協力によりAIマネジメントを強化する

(4)インシデントの予防と早期対応により利用者のインシデント関連の負担を軽減する

1点目は、これから作ろうとしているAIシステムとAIガバナンス・ゴールとの乖離を特定するプロセスをAIマネジメントシステムの中に組み込むことを行動目標としています。

乖離を特定した結果、その乖離により負のインパクトが発生するようであれば、インパクトの大きさと発生頻度等を考慮して、負のインパクトを受容すべきか、対策が必要か、撤退すべきかなどを検討するプロセスを組み込むべきであると記載されています。

この辺りは、これまでのセキュリティ等のリスクマネジメントのやりかたと同様なので、わかりやすい内容でした。

2点目は、AIマネジメントシステムを適切に運営するためには、外部の活用も検討して、役員も含めて技術的および倫理的リテラシー向上に必要な教育を実施することを行動目標としています。

3点目は、自社や自部門のみで解決できないことについては、関係する事業者間・部門間で積極的に情報を共有することを行動目標としています。

ただし、共有にあたっては、あらかじめ関係者で情報の開示範囲について合意して、秘密保持契約の締結等を検討するべきとしています。

4点目は、インシデントの予防と早期対応を通じて利用者のインシデント関連の負担を軽減することを行動目標としています。

もちろん、利用者の負担を無しにすることがBestであることは間違いないのですが、未来永劫負担を100%発生させないことは不可能なため、どれだけ軽減できるかを検討することが現実的ということだと思います。

6.「4. 運用 」を読み解く

この章は、AIマネジメントシステムの運用段階での行動目標について、以下の3点から記載されています。

(1)AIマネジメントシステムの運用状況について説明可能な状態を確保する

(2)個々のAIシステムの運用状況について説明可能な状態を確保する

(3)AIガバナンスの実践状況を非財務情報に位置付けて積極的な開示を検討する

1点目は、前章で定義したAIマネジメントシステムの実施状況について記録するなど、AIマネジメントシステムの運用状況を対外的に説明可能な状態にすることを行動目標としています。

2点目は、個々のAIシステムの運用状況についても状況をモニタリングし、結果を記録することを行動目標としています。

また、AIシステムを開発するのみの企業においても、運用する企業によるモニタリングを支援すべきとしています。

3点目は、上記の2点で記録された情報を、積極的な開示を検討することを行動目標としています。

また、開示しないと判断する場合は、開示しない理由を対外的に説明できるようにしておくべきとしています。

7.「5. 評価」を読み解く

この章は、以下の2つの視点から、AIマネジメントシステムの評価の行動目標を設定しています。

(1)AIマネジメントシステムが適切に機能しているかを検証する

(2)社外ステークホルダーから意見を求めることを検討する

1点目は、AIマネジメントシステムの設計や運用を行った者から独立した者に、AIガバナンス・ゴールに照らしてAIマネジメントシステムが適切に設計され適切に運用されているか否か、AIマネジメントシステムが適切に機能しているか否かを検証することが行動目標とされています。

2点目は、社外のステークホルダーに意見を求める検討をすることを行動目標としています。

ステークホルダーには、株主や利用者だけでなく、ビジネスパートナーやAIの運用に詳しい有識者、NGO、労働組合などの様々なステークホルダーから意見を求めるべきとしています。

それだけ、AIシステムについては、いろいろな考え方を持っている人がいるので、留意が必要ということだと思われます。

8.「6. 環境・リスクの再分析 」を読み解く

この章は、ここまでの章で記載されている内容を実施したうえで、最初に実施した環境・リスクの分析を再度実施する行動目標が記載されています。

具体的には、「1.環境・リスクの分析」で実施した内容を再度実施して、再評価、理解の更新、新たな視点の獲得などを行うべきとしています。

また、「5.評価」で、社外に意見を求める際は、AIマネジメントシステム自体やその運用だけでなく、AIガバナンス全体について意見を得ることも検討すべきと記載されています。

9.おわりに

今回は、『AI原則実践のためのガバナンス・ガイドライン ver. 1.1』の本体である「C. AI ガバナンス・ガイドライン」を読み解いてきました。

これまで「システム管理基準」などに記載されたITガバナンスでは、ITマネジメントシステムについて、ある程度社会の共通認識が持てていると感じられたのですが、AIガバナンスやAIマネジメントシステムについては、まだまだ社会での共通認識が得られているものではないので、様々なステークホルダーから意見を求めながら進めるべきという点が示唆されていると感じました。

まさに、これからルールなどが作られてくる時期にいるのだと感じると同時に、その時期にいろいろな活動に携わることができているというワクワク感を感じることができました。

まだまだ、わからないところが多く、実践できていない点も多いと思いますが、これからもいろいろな標準等を読み解きながら、自身の活動に役立てていきたいと思います。

 

『AI原則実践のためのガバナンス・ガイドライン ver. 1.1』を読む【前編】

今回は、経済産業省の「AI原則の実践の在り方に関する検討会」から2022年1月に公開されている『AI原則実践のためのガバナンス・ガイドライン ver. 1.1』を数回に分けて、自分なりにゆっくり読み解いていきたいと思います。

www.meti.go.jp

これからAIの開発や運用を行う皆さんの参考になる情報をご提供できればと思います。

また、G検定でも時事的な法律や制度などの問題も出題されているということなので、受験される方の何かの参考になれれば幸いです。

【目次】

1.今回読んだ範囲の概要

今回は、「A.はじめに」、「B.定義」を読み解きました。

本編ではないので、通常はさらっと読み飛ばしてしまう箇所ですが、よくよく読んでみると、なかなか趣深い内容でした。

ざっくり以下のような内容が記載されていました。

  • このガイドラインは、法的拘束力はなく、AI原則の実践を支援するために実践すべき行動目標と、仮想的な実践例や実務的な対応例を提示している。
  • このガイドラインは、AIを提供するAI事業者(AIシステム開発者、AIシステム運用者、データ事業者)を対象としている。

では、各章をもう少し掘り下げて読み解いていきます。

2.「A.はじめに」を読み解く

「はじめに」は、「1. AI ガバナンス・ガイドラインの狙い 」、「2. 本ガイドラインの法的性格」、「3. 他のガイドライン等との関係 」、「4. AI ガバナンス・ガイドラインの使い方 」、「5. Living Document」の5つの項で構成されています。

このガイドラインの狙いとしては、大きく以下の2点となっています。

  • AIの社会実装の促進に必要なAI原則の実践を支援すべく、AI事業者が実践すべき行動目標を提示
  • 行動目標に対応する仮想的な実践例AIガバナンス・ゴールとの乖離を評価するための実務的な対応例を例示

つまり、AI原則の実践するための例が記載されているので、事業者はこの事例を参考に対応できるというガイドラインとのことです。ただし、これらの事例は参考例であり、網羅的とすることは意図していないそうなので、注意が必要です。

ちなみに、AI社会原則は、以下の7つの原則になります。

(AI社会原則については、内閣府「AI戦略2019」の概要と取り組み状況もご参照ください)

  1. 人間中心の原則
  2. 教育・リテラシーの原則
  3. プライバシー確保の原則
  4. セキュリティ確保の原則
  5. 公正競争確保の原則
  6. 公平性、説明責任及び透明性の原則
  7. イノベーションの原則

法的性格や他のガイドラインとの関係については、以下の通りです。

このため、法的にやらなくてはならないという内容ではなく、ガイドラインは、以下のように使うと記載されています。

  • 行動目標については、一般的かつ客観的な目標であり、社会に対して一定の負のインパクトを与えうる AI システムの開発・運用等に関わる全ての AI 事業者が実施すべきもの
  • 実践例や乖離評価例の採否は AI 事業者の任意に委ねられることはも
    ちろん、採用する場合であっても各自の事情に応じた修正や取捨選択を検討する必要がある

つまり、法的拘束力はないものの、行動目標については全てのAI事業者が実施すべきとしています。そして、実践例や評価例はAI事業者で事情に応じて修正や取捨選択を検討するような使い方をするガイドラインだと記載されています。

また、本ガイドラインは「Living Document 」とのことで、このガイドライン自体の在り方の検討を継続し、必要に応じて改定が行われるため、最新版をチェックすることが必要となりそうです。

実際、2021年7月にVer.1.0が出てから、半年後の2022年1月にはVer.1.1が出ています。

3.「B.定義」を読み解く

この章は、単に用語の定義だろうと、さらっと読み飛ばそうと思ったのですが、なかなか趣深い内容が記載されていたので、読み解いていきたいと思います。

私が注目したのは、このガイドラインが誰を対象としているかについてです。

このガイドラインでは、対象を以下の通りとしております。

  • ガイドラインでは、AI事業者(AIシステム開発者、AIシステム運用者、データ事業者)を対象としている。
  • AIシステム利用者:他のAIシステム開発者が開発したAIシステムや他のAIシステム運用者が提供するAIシステムを単に利用するものであって、AIシステムの運用や性能維持等に責任を負わない者

つまり、サービスを提供する事業者側を対象としており、SaaSのようなサービスをビジネスで利用するAIシステム利用者は対象外と読み取れます。

これは、前提となる組織体系を経営陣、情報システム部門、利用部門等として、自組織でシステムを利用する場合のITガバナンスを記載している、「システム管理基準」(経済産業省)とは少し異なっているようです。

ただし、経営層と運営層の2層を想定しながら整理している点においては、

ITガバナンス層とITマネジメント層の2層を想定しながら整理している「システム管理基準」と同じ考え方となっているようです。

4.おわりに

今回は、『AI原則実践のためのガバナンス・ガイドライン ver. 1.1』の「A.はじめに」と「B.定義」を読み解いてきました。

これまで「システム管理基準」などに記載されたITガバナンスでは、システムを導入する側がどのような戦略でガバナンスをかけていくかという視点で記載されているのに対して、このガイドラインでは、システムを提供する側の視点で記載されているのが特徴的だと感じました。

それだけ、AIを使用したシステムにおいては、ブラックボックス化しやすくて、システムを提供する側の説明責任や倫理観がこれまで以上に求められるのではないかという感想です。

ガバナンス一つとっても、AIについては、これまでのシステムとは異なってきそうなので、引き続き、情報収集が必要だと、改めて思いました。

では、次回は「C. AI ガバナンス・ガイドライン 」を読み解いていきたいと思います。

 

2022年上半期の振り返り(積み上げの実践に向けて)

2022年上半期は、データ分析サイト等で確認してきた内容を踏まえて実社会でのネットワークを広げる取り組みを実施してきました。

この半期は、いろいろな記事を書かせていただいたり、論文を発表したりと、新しい取り組みを経験できたとともに、実社会で貢献するためには、まだまだ修行が足らないなと実感した半期でした。

引き続き、「ゆっくりでも止まらなければけっこう進む」の精神で頑張って行きたいと思います。

【目次】

【記事/論文関連】

 1.宇宙が分かる情報サイト「宙畑」に記事の寄稿

これまで、記事に必要なデータ分析という形で協力させていただいておりました宙畑さんに、Solafuneさんで実施された「市街地衛星画像の超解像化コンペ」について、以下の2記事を寄稿させていただきました。

sorabatake.jp

sorabatake.jp

自身の参加記録だけでなく、成績優秀者の解法をインタビューさせていただき、異なる視点での考え方をご教示いただけたのは、とても良い経験となりました。

今後も、アウトプットを意識しながら、いろいろな取り組みを実施していきたいと思います。

ちなみに、私のブログ内で、超解像化関連の記事も掲載していますので、合わせてご参考にしていただけると幸いです。

oregin-ai.hatenablog.com

 2.人工知能学会全国大会で論文発表

6月に開催された人工知能学会の全国大会で論文を発表させていただきました。

リンク先のページは参加者のみがログインして閲覧が可能なところが多いですが、タイムテーブルのPDFは公開されています。

「2P4-GS-10 AI応⽤:マーケティング・最適化」の枠で発表させていただきました。

confit.atlas.jp

[タイムテーブル(PDF)

内容自体は12月のCDLEHackathon2021で企業賞を受賞した内容です。

2月に応募を実施し3月に採択の連絡を受け、4月に最終的原稿を仕上げ、6月までに発表資料に仕上げて、当日発表するという、論文発表に向けた一連の流れは、とても良い経験になりました。

データを取ったり、データを分析したりする実作業とは異なり、「論文に仕上げる」という作業は、「何ができて何が課題となったのか」、「次にどうつなげるか」といいった視点で振り返りができる点や、これまで実施してきた内容を言語化して残すという点で、非常に有意義な作業でした。


【コンペ関連】

1.ProbSpace で総合ランキング1位をキープ

昨年に引き続き、データ分析好きが集まる交流プラットフォーム「ProbSpace」で開催されたコンペに参加し、総合ランキング1位を継続しています。

具体的には「クラウドファンディングの資金調達額予測」で15位(銀)、「民泊サービスの宿泊料金予測」で12位(銀)でした。

なかなか金圏には入れませんが、実業務と論文を抱えながら、隙間時間をうまく活用して取り組めるようになってきました。

せっかく総合ランキング1位をいただいているので、少しでも長くキープできるように頑張っていきたいと思います。

oregin-ai.hatenablog.com

2.Nishika Fake News Detectionに参戦

データ分析コンペティションサイトNishika」で開催された「Fake News detection」に参加し、残念ながら132位でメダル獲得ならずでしたが、BERTの使ったモデルを作成するなど、自然言語処理のモデル作成について学べたことは大きな成果となりました。

www.nishika.com

 【積み上げ関連】

1.AIQuest2021受講(2021年9月〜2022年2月)

経済産業省が実施しているAI Quest 2021に参加して、今年2月に無事修了いたしました。

結果としては以下の通り、様々な賞をいただけました。

第1ターム:AI課題優秀賞、ベストティーチャー賞
第2ターム:AI課題優秀賞、プレゼン課題優秀賞、総合優秀賞、ベストティーチャー賞

一番うれしかったのは、「ベストティーチャー賞」で、皆さんのお役に立てたという評価をいただけたことです。

内容は守秘義務があり、詳細を記載できませんが、要件定義あり、コンペ形式でのAI開発あり、経営層向けのプレゼンありで、実業務に即した、かなり濃厚な講座です。

今年も開催されるようであれば、皆さんにお勧めする講座です。

aiquest.meti.go.jp

2.日本ディープラーニング協会DLforDXの取材協力

日本ディープラーニング協会DLforDXの取材に協力させていただき、以下の2つの記事を掲載いただきました。

1つ目は、早稲田大学基幹理工学部表現工学科の尾形研究室にお邪魔して、尾形先生と対談を実施させていただくことができました。

こちらでは、実際の研究の現場を拝見させていただき、学生の皆さんの熱気に触れることで、前述の論文発表を実施するきっかけとなりました。

dlfordx.jp

2つ目は、G検定、E資格の合格者として、資格取得後の活動内容や、CDLE(Community of Deep Learning Evangelists)との関わりなどについて、お話をさせていただきました。

日本ディープラーニング協会やCDLEがなければ、今の自分は無いだろうなと思っていますので、協会の皆さんやメンバーの皆さんには感謝するばかりです。

dlfordx.jp

おわりに

2022年上期は、コンペや講座だけでなく、実際の研究現場や学会など、実社会と接点を持つ取り組みを実施することができました。

また、他の方のコンペの解法を取材させていたり、色々な研究実体を見せていただくなど、自分以外のモデルの詳細を見せていただく機会にも恵まれました。

あとは、自身のドメイン知識と統合して業務としても貢献できるようになっていきたいと思います。

お世話になった皆様、今年も半年間、本当にありがとうございました。

2022年下半期もよろしくお願いします!

 

【これまでの道のり】

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

f:id:kanriyou_h004:20201209122737p:plain 

 

【12位解法】Probspace開催「民泊サービスの宿泊料金予測」の振り返り。

データ分析好きが集まる交流プラットフォーム「ProbSpace」で開催された「民泊サービスの宿泊料金予測」に参加し、12位(銀)の成績を残せました!

今回のコンペは、苦手としている回帰のタスクだったのですが、なんとか結果も残せてよかったです。

また、年度末年度始めの忙しい時期でしたが、ゴールデンウィークを活用して短期集中で取り組むことで追い上げることができたのも良い経験でした。

では、振り返って参りたいと思います。

1.全体構成

今回のコンペは、機械学習のテーマとしてもよく取り上げられるダイナミックプライシングをテーマとしたコンペティションとのことでした。

名前や緯度経度、部屋タイプなどのテーブルデータから価格を予測します。

数値のデータは直接特徴量として利用し、部屋タイプなどのカテゴリデータをどのように扱うかが精度に影響しました。

また、名前が「JP traditional house! Max10ppl! Near SensojiTemple」のように文章になっているので、自然言語処理の活用もポイントとなりました。

モデルは、異なるパラメータのLGBMで学習したモデル4つを使い、それぞれの予測結果の平均を最終的な提出としました。

2.前処理

前処理については、shirapon24さんの「初心者用サンプルコード」と、columbia2131さんの「tf-idfを用いたnameの埋め込みを参考にさせていただき、以下の処理を実施しました。

【前処理】

こちらは、訓練データ、テストデータの両方に適用する共通の処理です。

カラム 処理内容

name

neighborhood

room_type

last_review

日付データを以下の項目に分割。

  • 曜日
  • yymmdd形式の年月日

3.モデル構築

 モデルは異なるパラメタの4つのLGBMRegressorで学習させ、それぞれの予測値の平均をとって最終提出としました。

また、交差検証はラベルエンコーディングした【name】をもとにした、GroupKFoldで実施しました。

このモデルで提出したファイルで、最終スコア:0.72905 となり、全体で12位で、銀メダル圏内に入ることができました。

4.感想

今回のコンペは、民泊の様々な特徴量から価格を予測するというオーソドックスな回帰の課題がテーマでした。

年度末・年度始めでバタバタしていて、基本的なモデルとしてはLGBMしか試せなかったのですが、NNなど他のモデルでも取り組むことで、もう少し改善できたのではないかと考えています。

また、緯度経度などの情報からどのあたりの宿泊施設かわかるので、位置的な情報も、もう少し活用することで改善できたのかもと思いました。

次回コンペでは、じっくりと腰を据えて取り組みたいと思います。

5.謝辞

最後となってしまいましたが、本コンペを運営してくださいました、Probspase の運営の皆様、データを提供してくださいましたAirBnbの皆様、一緒にコンペに取り組んでいらっしゃった皆様、Twitter上でやりとりを実施させていただいた皆様に心より感謝申し上げます。

今年上期は、コンペだけでなく実生活の中でいろいろな人と交わりながら活動してきました。その中でコンペでも結果を残せたことは非常に良い経験となりました。

引き続き、このコンペで身に着けた知識や経験を生かして、引き続き実生活にも活動の場を広げていきたいと思います。

 

【過去記事】

G検定、E資格の取得から、これまでに取り組んできた道のりは以下にまとめております。何かのご参考にしていただければ幸いです。

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

2021年下半期の振り返り(機械学習の積み上げ~実社会への適用に向けて~)

2021年下半期は、上半期に引き続き、機械学習の積み上げの成果を試すため、データ分析サイトのコンペティションなどに参加しました。

この半期は、実データを用いて社会課題の解決に向けたビジネス提案を実施したり、宇宙関連の記事のデータ分析に参加させていただくなど、積み上げた機械学習のスキルを実社会にどう役立てていくか考えられた半期でした。

引き続き、「ゆっくりでも止まらなければ結構進む」の精神で頑張って行きたいと思います。

 

【目次】

【コンペ関連】

 1.日本ディープラーニング協会主催CDLEハッカソン2021企業賞受賞

2021年下半期で印象に残った出来事の1つ目は、昨年も参加した日本ディープラーニング協会主催のCDLEハッカソン2021に参加し企業賞(DENSO賞)を頂けたことです。

www.jdla.org

今年は、昨年の精度を競うコンペ形式とは異なり、5名1チームで、「都市課題をデジタル・データを活用して解決するサービス・ソリューションの開発」に取り組む、ビジネス提案型のハッカソンでした。

1カ月半という短い期間の中、このハッカソンで知り合った初対面の4名の皆さんと、与えられた実データと向き合い、モデルの実装に悪戦苦闘しながらも、1つのビジネス提案として形にすることができました。

昨年のCDLEハッカソン2020に引き続き入賞できたこともさることながら、これまで取り組んできた機械学習の技術を、チーム一丸となって、ビジネス提案にまで取りまとめることができたのは、非常に貴重な経験でした。

これからの活動に生かしていきたいと思います。

2.ProbSpaceで総合ランキング1位をキープ

2021年下半期も、ProbSpaceで、なんとか総合ランキング1位(総合ランキング)をキープできました。

特に印象にのこったのは、宗教画コンペです。

今まで、宗教画をじっくり眺めてテーマを考えることなかったのですが、このコンペを通して、私自身の絵画に対する向き合い方が変わったような気がしました。順位は3位と2連続優勝にはわずかに届きませんでしたが、機械学習以外の点についても学ぶことができたのは良い経験でした。

下半期に参加したProbSpaceの各コンペでの記録は以下の通りです。

3.Solafune、Nishikaにも継続して挑戦

下半期もSolafuneNishikaにも継続してチャレンジしました。

Solafuneでは、初の超解像化のモデルということで、かなり苦戦しました。順位は53位と低迷してしまいましたが、なんとか、モデルが構築できるようになった点では成長できたと考えています。

Nishikaでは、銅メダルを1個追加して、現時点で総合ランキング13位になれました。来年はさらに上位を目指します!

f:id:kanriyou_h004:20211231153704p:plain

 【積み上げ関連】

1.AIQuest2020受講(2021年9月〜継続中)

経済産業省が実施しているAI Quest 2021に今年も参加し、現在も継続中です。

 

守秘義務があり、詳細は記載できませんが、要件定義あり、コンペ形式でのAI開発あり、経営層向けのプレゼンありで、実業務に即した、かなり濃厚な講座です。

現時点では、第1タームAI課題優秀賞をいただきました。

第2タームも引き続き頑張ります。

aiquest.meti.go.jp

2.宇宙が分かる情報サイト「宙畑」の記事に参加

宇宙が分かる情報サイト「宙畑」の以下の記事にて、データ分析という形で参加させていただきました。

sorabatake.jp

sorabatake.jp

目的変数が決まっているコンペとは違い、データから意味を見出すことを目的としてデータ分析を実施させていただいたのは初めてだったので、とても刺激的な経験となりました。

実際の現場のデータ分析は、このアプローチが多いと思いますので、引き続き、分析の感覚を磨いていきたいと思います。

おわりに

2021年下期は、機械学習の勉強だけでなく実際にビジネスにどう生かしていくかという視点で色々な経験を得ることができました。

また、TwitterSNSでのオンラインでの交流だけでなく、一緒にビジネス提案を実施させていただいたり、記事に参加させていただいたり、皆さんとコラボして取り組む機会を沢山いただいて、とても有意義な期間を過ごすことができました。

お世話になった皆様、今年も1年、本当にありがとうございました。

来年もよろしくお願いします!

 

【これまでの道のり】

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

oregin-ai.hatenablog.com

f:id:kanriyou_h004:20201209122737p:plain 

 

 

今日から始める!楽しいコンペの歩き方【Advent Calendar 2021 - Qiita】

アドベントカレンダーに初めて参加させていただきました!

qiita.com

「Kaggleに参加してみたいな」と思ってもなかなか踏み出せないといった方に、コンペの楽しさを少しでもご紹介できればと考えています。

では、ご紹介していきたいと思います。

1.はじめに

「はじめに」と言いつつ、結論なのですが、コンペは楽しいです!

仕事や勉強では、なかなか定量的なフィードバックを得られることが少ないのですが、Kaggleなどのコンペでは、結果がスコアや順位となってすぐに見れるので、ゲーム感覚で取り組めます。

また、何回参加しても、参加者たちのDiscussionを見放題でも無料なのが魅力です。Kaggleのnotebookや、Google Colaboratoryを使えばクラウド上のGPU環境も限定的ながら無料で使うことができます。

そして、なんといっても参加者たちとオンラインで交流して、自分の世界が広がります。

この記事を読んで、興味をもっていただけましたら、是非参加してみてください!

f:id:kanriyou_h004:20211203084442p:plain


2.コンペの歩き方(全体像)f:id:kanriyou_h004:20211203084522p:plain

コンペの歩き方として私の経験から、楽しみ方の1例を紹介させていただきます。

全体像としては、何はともあれ、まず「登録する」、次にTutorialなどを「真似る」、そして出来事を「発信する」という3ステップを踏みます。


3.コンペの歩き方(1.登録する)f:id:kanriyou_h004:20211205102056p:plain

1つ目の「登録する」にあたっては、どのサイトに登録すればよいのだろう?と思っていらっしゃる方もいらっしゃると思います。

Kaggleを始め、私が登録しているコンペサイトについて、個人的な所感を記載します。自身の趣向にあったサイトに登録する際に参考にしていただけると幸いです。

サイト名

URL

所感

Kaggle

https://www.kaggle.com/

言わずと知れた世界的コンペサイト。Discussionやコードの公開も活発で、メダル獲得や称号獲得が対外的にもアピールできます。

SIGNATE

https://signate.jp/

コンペ参加人数が5万人を超える、国内主催のコンペサイト。様々な企業がコンペを主催しています。コンペ以外にもlearningコンテンツも充実。

ProbSpace

https://comp.probspace.com/

最近Ridgelinez社とDX人材マッチングサービスでパートナーシップ開始したコンペサイト。自社主催コンペが中心で毎回チュートリアル付で取り組みやすい。

Nishika

https://www.nishika.com/

データサイエンティスト特化型求人も充実のコンペサイト。副業の紹介も実施しているので、副業可能な社会人にはメリットあり。

Solafune

https://solafune.com/

衛星データ解析に特化したコンペサイト。宇宙好きにはたまらないコンペ。直近では、Microsoftとコラボした高解像化コンペを開催中。


4.コンペの歩き方(2.真似る)f:id:kanriyou_h004:20211203084659p:plain

登録してみたら、いろいろと技術的なことを考えるよりも、コンペの楽しさを実感するために、とりあえず、何かのコンペに参加して、他の方のコードを真似て投稿してみます。

Kaggleであれば「Code」、SIGNATEでは「フォーラム」、Probspaceであればコンペの基本情報の「Tutorial」や「トピック」、Nishikaでは「ディスカッション」、Solafuneでは「Discord」にて、Tutorialや他の方の参考コードなどが投稿されますので、まずは、それをコピーして実行結果を投稿してみます。

すると、すぐにスコアと順位が表示されて、「コンペに参加した!」という実感が湧いてきます。

次は、パラメータらしきところの数値を適当に変更してみます。変更してみた実行結果でスコアや順位が変わるようであれば、そこが精度に影響するパラメータになります。

精度に影響するパラメータが見つかったら、あとはこのパラメータが使われているところを探して、そのコードの意味や役割を調べていきます。

これを繰り返していくうちに、だんだんとコードの中身が理解できるようになってきて、ますます楽しくなってきます!


5.コンペの歩き方(3.発信する)

f:id:kanriyou_h004:20211203084733p:plain

真似て投稿してみたら、次は発信です。

コンペが楽しくても、やはり一人で取り組むとなかなか続かないことも多いです。そこで、おすすめなのが、実施していることを、Twitterやブログなどで発信することです。

私は投稿するたびに良かった悪かった、進捗したなどなんでもよいので発信するようにしています。

こうすることで、いろんな皆さんのご意見をいただけたり、普段接点のない皆さんと交流できたり、新鮮な出会いもあり、モチベーションの維持につながっています。

また、自分が読んでいた書籍の著者の方から、「いいね」やコメントなどをいただけると、とてもテンションがあがります。

自ら情報発信をすることは、おすすめです。


6.一歩先の歩き方f:id:kanriyou_h004:20211205104541p:plain

コンペを続けていると、向上心が出てきて、「もっと上位を目指したい!」となってくることがあります。

その場合の1歩先の歩き方をご紹介します。


7.時間の使い方ご紹介

次に、「コンペを続けたいのに時間がない!」「働きながらは無理!」という場合に、私の時間の使い方をご紹介いたしますので、ご参考にしていただければ幸いです。

ポイントは、「無駄な時間をなくす」という点です。「無駄な時間」というのは人それぞれ価値観が違うので、一意に決めることはできませんが、私は「だらだらとエンドレスでネットサーフィンやYoutubeを見てしまう時間」と定義しています。もちろん目的を持ってみるYoutubeやネット検索は含みません。

では、どうやって無駄な時間をなくすかというと、「複数のコンペに同時参加して隙間時間をなくす」という作戦をとっています。複数のコンペに同時参加することで、次々とやらないといけないことが出てくるので、「無駄な時間」を過ごす暇がありません(笑)

また、隙間時間にやることをパッと出せるように、@fkubota_さんのKaggle日記という戦い方を活用しています。


8.最後に

上記のように、楽しみながらコンペに取り組むことで、2019年にはPythonのパの字も知らない状況から、今ではKaggleを始め様々なコンペで結果を残すことができ、ProbSpaceでは総合ランク1位になることができました。

是非皆さんも、コンペに参加して楽しみながらスキルアップしていきましょう!

f:id:kanriyou_h004:20211205112806p:plain

 

oregin-ai.hatenablog.com