識別におけるデータの分け方について
Udemyで勉強しつつコード動かしつつブログにその内容をまとめます
データの分け方
- アヤメのデータは教師データが最初の3分の1が0、次の3分の1が1、最後の3分の1が2というラベルがついて整理されているため、そのデータを半々に分けて学習とサンプルデータにしてもうまく学習できない
- データをランダムにシャッフルするモジュールを利用する
- すごい便利
- ランダムに分ける、という行為がたまたまうまく識別できるよう分けられた、ということかどうか検証する
- 複数回試行してその差を確認
- 次にデータの分け方を半々ではなく、1対9、2対8 ... 9対1に分け、それぞれを1000回ずつ試行、平均と標準偏差を記録
- 結果としてはアヤメのデータは半々に分けるあたりから精度が出始めるとわかる
最終的にはデータの分け方とその平均スコア、標準偏差のグラフを描画して納得できる
コード自体は短く、かつ機械学習ができるのは便利、なにかに使えそう