機械学習についての勉強 9日目 - scikit-learnによる学習と識別の流れ
9日目はscikit-learnによる学習と識別の流れについて、2つの例題で
コードを書きながら学んだ
あと今更タイトルに何をやったか書かないと後で自分で見返す際に
とてもわかりにくいことに気がついた…
学んだ内容
- 二次元のデータ(単純なxとyの二次元データにラベル(そのxとyの組み合わせが0か1か)が格納されたもの)を識別
- ガンのデータを識別(scikit-learnに含まれるサンプルデータ)
識別について
今日学んだ識別について、ほぼ同じ流れを別のデータに対し二度行うことで
感覚がかなり掴めてきたように思う
あまり深く考えすぎないでscikit-learnを扱い始められそう
教師データを含むデータセットを用意し、
xに学習するデータセット、yに教師データを格納して
識別器(どの関数で学習させるか)を準備すれば学習が可能
# オブジェクト作成(識別器作成)
clf = neighbors.KNeighborsClassifier(n_neighbors=1)
# 学習
clf.fit(x, y)
あとはこの学習した識別器にテスト用データを入れることで精度が出る
なんてシンプル
# テストデータの精度
print(clf.score(x_test, y_test))
Udemyのコース内ではこの識別器を変更するとどうなるか、
いくつのデータをどこで間違えているか、などをPythonのコードで
記載・表示していくため、とてもわかりやすい
(それでも2本で約15分の動画を見ながら・調べて・書いて・試してをやると
2時間ほどかかりましたけど…)
所感
2つ目のコースは識別について学び始めるのであれば、かなり良いコースに感じる
一方で進むペースや解説のすっ飛ばし方からすると、機械学習について
このコースから入ると少し難易度が高く感じる人がいるかもしれない
自分としては識別でやりたいことがあるので、このコースについては
じっくり学びたいと思う