347

勉強のこと、酒のことを書いていく

識別におけるデータの分け方について

Udemyで勉強しつつコード動かしつつブログにその内容をまとめます

 

データの分け方
  • アヤメのデータは教師データが最初の3分の1が0、次の3分の1が1、最後の3分の1が2というラベルがついて整理されているため、そのデータを半々に分けて学習とサンプルデータにしてもうまく学習できない
  • データをランダムにシャッフルするモジュールを利用する
  • すごい便利
  • ランダムに分ける、という行為がたまたまうまく識別できるよう分けられた、ということかどうか検証する
  • 複数回試行してその差を確認
  • 次にデータの分け方を半々ではなく、1対9、2対8 ... 9対1に分け、それぞれを1000回ずつ試行、平均と標準偏差を記録
  • 結果としてはアヤメのデータは半々に分けるあたりから精度が出始めるとわかる

 

最終的にはデータの分け方とその平均スコア、標準偏差のグラフを描画して納得できる

コード自体は短く、かつ機械学習ができるのは便利、なにかに使えそう

f:id:geva:20180929170646p:plain