相関係数



データサイエンスに必要な知識はいろいろあるようです。
ITスキルはもちろんですが、統計学やビジネススキル(業界に対する理解)、心理学なども必要になるようです。
これらの学問を一度に勉強するのはとても重い作業になると思いますので、一つ一つ学んでいきたいと思います。
無難に統計学からですかね。
統計学に関するものとして相関というとっかかりやすそうなものがありました。
相関に関して簡単にまとめます。

相関

相関とは簡単に言うと2つ以上の物事についての関係性を示したものです。
一方が変わればその変化に応じてもう一方も変化する、というようにお互いに何らかの関係を持っているということです。
そしてそれらがどのくらい、どのように関係しているかを表した指標が相関係数です。
これは-1から1までの値を取り、
1に近ければ正の相関、
-1に近ければ負の相関、
0に近ければ近いほど相関は弱いとされています。

相関係数を求めるために

この値を求めるために必要なものは分散、共分散、標準偏差です。
相関係数は xとy の共分散を標準偏差で割ることによって求めることができます。

例えばn組の xとy からなるデータ( (x1,y1)(x2,y2)…(xN,yN) )があるとします。
共分散はxとyそれぞれの平均(x’, y’)と2変数の差の積和をデータの個数-1で割ることで計算できます。
式はこんな感じになると思います。


convariance= \frac{\sum_{i=0}^N (x_i-x')(y_i-y')}{N-1}


そして標準偏差は分散の平方根を計算することで求めることができます。
分散はN個のデータをxNとしてそのデータの平均をx’とすると以下のように計算できます。


variance=\frac{\sum_{i=0}^N (x_i-x')^2}{N}


これをyについても計算します。

そして標準偏差を求めます。
SD = \sqrt{variance}

そして共分散を標準偏差で割ります。
\frac{convariace}{SD_X SD_Y}

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です