347

勉強のこと、酒のことを書いていく

機械学習　識別についての勉強継続中

機械学習

夜勤明けで一眠りしたんで、AbemaTVでゆるキャンの放送が始まるまで勉強します

誰かに公開するブログというより自分用の学習記録になっている

2次元データの識別例

散布図を利用し様々な識別器を利用した識別、の続き

scikit-learnとpandasのpipによるインストール
Windowsでscikit-learn(sklearn)をインストールしてirisの予測をサクッとするまで - SuprSonicJetBoy's blog
KNeighborsClassifierを用いた学習、識別
LogisticRegressionを用いた学習、識別
svm(サポートベクターマシン)を用いた学習、識別
データを準備、読み込み、プロットによる確認、識別器作成と学習、識別の一連の流れを学んだ

癌のデータを識別、学習とテストを半々に

癌のデータに対し、線形モデルで分類を実施
全データから学習データ、テストデータを分けるまでの流れを学ぶ
識別器の学習を行い結果を表示、精度について確認

アヤメのデータを識別、学習とテストを半々に、するとうまくいかない例

癌のデータと同様に、scikitlearnのテストデータであるアヤメのデータを使用
アヤメのデータの半分を学習データ、もう半分をテストデータに分け識別器の学習、結果の表示
アヤメのデータは3クラスに分かれているが、学習の結果精度は33％、3クラス問題では無意味な結果になる
なぜこうなるか(教師データの内容を見たら思い出したけど)は次の教材で