唐突に相関について少しだけ勉強した

この本を読んでデータサイエンスが面白いなあと最近思いはじめました。

データサイエンスに必要な知識はいろいろあるようです。
ITスキルはもちろんですが、統計学やビジネススキル(業界に対する理解)、心理学なども必要になるようです。
これらの学問を一度に勉強するのはとても重い作業になると思いますので、一つ一つ学んでいきたいと思います。
無難に統計学からですかね。
統計学に関するものとして相関というとっかかりやすそうなものがありました。
相関に関して簡単にまとめます。


相関

相関とは簡単に言うと2つ以上の物事についての関係性を示したものです。
一方が変わればその変化に応じてもう一方も変化する、というようにお互いに何らかの関係を持っているということです。
そしてそれらがどのくらい、どのように関係しているかを表した指標が相関係数です。
これは-1から1までの値を取り、
1に近ければ正の相関、
-1に近ければ負の相関、
0に近ければ近いほど相関は弱いとされています。

相関係数を求めるために

この値を求めるために必要なものは分散、共分散、標準偏差です。
相関係数は xとy の共分散を標準偏差で割ることによって求めることができます。

例えばn組の xとy からなるデータ( (x1,y1)(x2,y2)…(xN,yN) )があるとします。
共分散はxとyそれぞれの平均(x’, y’)と2変数の差の積和をデータの個数-1で割ることで計算できます。
式はこんな感じになると思います。
convariance = ( (x1-x’)(y1-y’)+(x2-x’)(y2-y’)…(xN-x’)(yN-y’) ) / N-1

そして標準偏差は分散の平方根を計算することで求めることができます。
分散はN個のデータをxNとしてそのデータの平均をx’とすると以下のように計算できます。
variance = ( (x1-x’)² + (x2-x’)² … (xN-x’)²) / N
ということは標準偏差は、
standard deviation = √variance
になります。

相関関係にあるもの

日本人の勝算という本を最近少しだけ読みました。

この本は日本がオワコンに向かっていくなかどうすれば立て直すことができるかを示した本です。(僕の脳みそではこの程度のコメントしかできません。)
課題の一つとして今のGDPや保険制度を維持するためには生産性を高めていく必要があるとのことでした。
これに関してこの本の中にいくつか相関関係にあるものが挙げられていました。
国の最低賃金と生産性、輸出比率と生産性、小規模の企業に勤務する人口の比率と生産性、女性の経済参加度と生産性etc.
これ以上は別の議題になってしまいますので深入りはしませんが、とにかくこれらの水準を上げていけば生産性も同様に上がっていくということですね。