機械学習についての勉強 10日目 - 学習データとテストデータの分け方・使い方について

10日目は引き続きscikit-learnによる識別、その中でも学習データと

テストデータの分け方・使い方について学んだ

土曜日に10時間ほど飲んじゃうと日曜日も潰れますよね…

サボってた訳では…

scikit-learnに入っているアヤメのデータは、最初の3分の1はアヤメAのデータ、

次の3分の1はアヤメBのデータ、最後の3分の1はアヤメCのデータ、

というように格納されている

そのため単純にデータの最初から半分までを学習データ、もう半分をテストデータとすると

当然学習データにはアヤメA、アヤメBしか含まれない

なのでテストデータにあるアヤメCのデータは正しく分類できず、精度が下がる

そりゃそうだよなと思っているとそれをランダムに選んだ学習データを

準備するメソッドが用意されているなんて…

ここまで楽に機械学習に取り組めるようになっているからすごい

手を動かしながら学んでいると、まだ慣れは足りないものの、

こんなことができるのではという材料がコードとして溜まっていく

このコースを最後まで学んで、別途線形代数・統計学の基礎を学べば

ある程度理論＋実践ができるのでは

引き続き勉強しないといけない

でも年末って飲み会多いよね…

347