347

勉強のこと、酒のことを書いていく

特徴変換:PCA

今日は飲み会がないので引き続き機械学習について勉強します

はてなブログの見たまま記法が書きにくすぎて、Markdownに切り替えるべきか考えたい

リアルタイムにプレビューできるMarkdownエディタ探そうかな

 

特徴変換について
  • 特徴量が30次元ある癌のサンプルデータを使用
  • 特徴それぞれに対し重みを付ける、特徴と特徴を足し合わせる等の変換を行うことでもっとよい精度が出るかもしれない、という考え方
  • 以前詰まったpandasでの描画は以下を参考に解決、毎度ながら先人の苦労がありがたい
  • pandas を利用してデータセットの可視化を素早く試行する

  • 特徴量の散布図をマトリックスで描画、綺麗な比例の関係を持つ特徴が見つかる
  • f:id:geva:20181024215335p:plain

  • この直線を求めることで、直線上の両方の値が決まるため、この直線を主成分分析(PCA)で取り出す
  • PCAのインスタンスを作成、fitで直線を構成する要素を取り出し、transformで変換
  • 特徴変換を行うことで縦軸が常にほぼ0となり、横軸のみに意味のある特徴に変換される
  • f:id:geva:20181024221243p:plain

  • もう一本の動画に続く…

 

学んだこと
  • 今回の例だと特徴変換というより特徴選択(次元削減)のように見える(Xが決まればyが決まるため、片方の特徴が不要)、違いがわからない…
  • PCAで何をしているかもいまいち理解できていない、勉強が必要