データから識別へ、特徴量について
3連休予定無さすぎてもう
東京都内で良さそうな温泉探して行こうか考えるくらい予定が無い
データから識別までの流れ
- 以下の流れを踏む
- データ取得(画像、信号、センサ出力など)
- 特徴量抽出(数値、特徴量ベクトルに変換)
- 特徴選択
- 特徴変換
- 正規化
- 識別
欠損値の扱い、データクリーニング
- 欠損値、外れ値を含むCSVをデータとして使用、扱いを学ぶ
- numpy の isnan を使用して欠損値を確認、除外
- abs で絶対値を確認、特定の値から外れるものを除外
- 除外を行うとデータセットの数が減ってしまうため、他の方法として、欠損値を埋めるという方法がある
- skelearn.preprocessing から Imputer をimport、欠損値を他データの平均値で埋める(平均値で埋めてよいデータの場合)
- Imputerのインタンスを作成、fit で学習、transform で平均値で埋める
- Imputerの引数として strategy='median' を指定することで中央値で埋めることも可能
学んだこと
- 平均値で埋める、という真面目に実装すればやや面倒なことも、最初からsklearnに準備されていてとても便利
- クリーニングはどんなデータでも必須、ただしやり方はデータによりやり方を変えないといけない