注目の投稿

【kepler.gl】コロナ対策による人流の変化も地図上に可視化(各種メディアで報道)

kepler.glのサイト画面 kepler.glを使ってコロナ対策の効果を分析したところ、テレビ、新聞、ネットのメディアから問い合わせや報道依頼が殺到。今も、土日返上で都内や全国の人流変化を分析しています。この記事では人流変化の可視化に便利なkepler.glにつ...

2019年7月6日土曜日

【動画紹介】Exploratory: 決定木の紹介と使い方



役立ち動画発見!

データ分析の目的から決定木の説明に入るので、なぜ決定木を使う必要があるのかが良く分かる


動画の流れ


  • データ分析とは、「相関」、「パターン」を見つけること
  • たくさんデータがあると一つ一つ関係を見ていくのは大変
  • 機械学習(決定木など)で「相関」や「パターン」のあてを見つける
  • 決定木とは何か?どのように木を作るか?などを紹介

木をどうやって作るかはあまり説明されないことが多いけど、不純度(Gini Iimpurity)を減らすことで、木を作っているという説明もちゃんとされていてナイス!

ちなみに、不純度は、データにどれだけ値が混ざっているかを示す指標で、1から各サンプル数の割合を二乗したものを引いたもの

例:6人のうち2人が大人、4人が子供の場合

不純度 = 1 - (2/6)^2 - (4/6)^2

^2は二乗の意味

0 件のコメント :

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。