347

勉強のこと、酒のことを書いていく

識別におけるデータの分け方について

機械学習

Udemyで勉強しつつコード動かしつつブログにその内容をまとめます

データの分け方

アヤメのデータは教師データが最初の3分の1が0、次の3分の1が1、最後の3分の1が2というラベルがついて整理されているため、そのデータを半々に分けて学習とサンプルデータにしてもうまく学習できない
データをランダムにシャッフルするモジュールを利用する
すごい便利
ランダムに分ける、という行為がたまたまうまく識別できるよう分けられた、ということかどうか検証する
複数回試行してその差を確認
次にデータの分け方を半々ではなく、1対9、2対8 ... 9対1に分け、それぞれを1000回ずつ試行、平均と標準偏差を記録
結果としてはアヤメのデータは半々に分けるあたりから精度が出始めるとわかる

最終的にはデータの分け方とその平均スコア、標準偏差のグラフを描画して納得できる

コード自体は短く、かつ機械学習ができるのは便利、なにかに使えそう

f:id:geva:20180929170646p:plain