PCA / 主成分分析 (Principal Component Analysis)
▼ ざっくり言うと
たくさんあるデータの特徴を、「いちばん効いてる軸」に絞って圧縮する手法です。
▼ もうちょっと詳しく
身長・体重・腹囲・血圧・コレステロール…と、健康診断のデータが30項目あったとします。これを全部見るのは大変なので、「この人の体型の主な傾向は何か」を表すような、もっと少ない数の「合成された軸」に変換したい。これをやるのがPCAです。
作られた新しい軸を「主成分」と呼びます。第1主成分が「いちばん人の差が出る方向」、第2主成分が「次に差が出る方向(ただし第1とは独立)」、という順で取られます。情報量(分散)が大きい順に並べ、下位はバッサリ切る、という割り切りで次元を減らします。
▼ ちょっとだけ深い話
数学的には共分散行列の固有ベクトルを求めているだけ、と言うと急に学問の顔になります。1901年に統計学者カール・ピアソンが提案した、由緒正しい古典手法。深層学習に押されがちですが、前処理・可視化・ノイズ除去で今でも現役です。
ただし、PCAは「線形な軸」しか見つけられないので、データがぐにゃっと曲がっていると上手く扱えません。そういう時は t-SNE や UMAP の出番。
「全部見るのは無理だから、いちばん効いてるところだけ見る」というのは、人生でも応用が効きます。
あなたの読了: 0 / 390 語

