紅崎玲央の学習記録 - 趣味の数学ノート別冊

趣味で数学に取り組む学習記録です。

🗒️p.027 - 大数の法則と中心極限定理の意味をざっくりと掴む

2023/12/31、日曜日。

趣味で数学・統計学の学習に取り組んでいます。

Reviews

今週は、年始のバタバタでうまくまとまった学習時間がとれませんでした。そんな中でも授業動画をながら見で復習しながら、赤本の7, 8章を読み進めてみました。

できればもっと確率分布の計算問題を練習したかったのですが、良しとしましょう。

ひとまず、今回の範囲をすべてではないですがわかる範囲で整理していきます。

赤本7章:多次元の確率分布

ここまでの5-6章では、確率変数が1つの場合の確率分布を扱ってきました。これには、例えば次のようなものがありました。

  • 二項分布:表が出る確率p=1/2のコインをn回投げたときに、表が出る回数を確率変数に持つ離散型確率分布
  • ポアソン分布:30分で平均λ回かかってくる電話が、1時間の間にかかって来る回数を確率変数に持つ離散型確率分布
  • 正規分布:わかりやすい事象例はないが、平均値μと分散σ2をパラメータとする、統計学的に意味のある連続型確率分布

この章では、確率変数が2つ、もしくはそれ以上ある場合の確率分布の考え方を学びます。

同時確率分布と周辺確率分布の考え方

考えやすくするため、2変数の離散型確率分布の場合に絞って考えます。

2つの確率変数X, Yについて、X=xであり同時にY=yである確率P(X=x, Y=y) = f(x, y) を、2次元確率変数(X, Y)の同時確率分布と呼びます。

また、同時確率分布から求められるX, Y単独の確率分布P(X=x) = g(x), P(Y=y) = h(y)を、それぞれX, Yの周辺確率分布と呼びます。

これらを、X, Yの2次元の表でイメージをつかんでおきましょう。

ヨコに確率変数Xの値、タテに確率変数Yの値が並んだ確率の表として考えます。そして表のタテ・ヨコの確率をそれぞれ合計して、各X, Yの確率として表の下と右に書いておきます。この2次元の表に並んだ確率が同時確率分布f(x, y)と対応し、下と右に記述したそれぞれの確率変数の合計確率が周辺確率分布g(x), h(y)と対応します。

1次元の確率分布の時には、すべての確率の和が1に等しいのでした。それと同じく、2次元の確率分布でも同時確率分布の合計、それぞれの周辺確率分布の合計はどれも1に等しくなります。

また、周辺確率分布は同時確率分布から導かれますが、逆は成り立ちません。つまり、同時確率分布がわかっていれば行・列の合計で周辺確率分布を計算することができますが、周辺確率分布だけがわかっていても、表の内訳を逆算することはできないんですね。

共分散と相関係数

2変数X, Yの関係を表す数値として、共分散と相関係数があります。

共分散 Cov(X, Y)

共分散は「(Xの偏差 × Yの偏差)の平均」で表されます。

  • Cov(X, Y)が正:XとYは正の相関関係がある(Xが大きいとYも大きい傾向)
  • Cov(X, Y)=0:X, Yは無相関

    - Cov(X, Y)が負:XとYは負の相関関係がある(Xが大きいとYは小さい傾向)

この共分散の値は相関の様子を捉えることはできますが、残念ながら他の分布と比較してどちらがどれだけ相関が強いのかを比較するための指標としては使えないんです。そこで、次の相関係数が指標として役に立ちます。

manabitimes.jp

相関係数 ρ

相関係数「共分散Cov(X, Y)を(Xの標準偏差 × Yの標準偏差)で割った値」となります。

X, Yの共分散をそれぞれの標準偏差で割って、元のデータと単位をそろえつつ標準化することで、指標として使えるようにうまいこと調整した値、とでもいえばよいのでしょうか。

  • ρが正:XとYは正に相関、1に近いほど強い正の相関関係がある
  • ρ=0:X, Yは無相関
  • ρが負:XとYは負に相関、-1に近いほど強い負の相関関係がある

ここでは標準化による調整が効いていて、相関係数ρは-1から1の範囲におさまります。なので複数の分布の相関係数を比較することで、どの分布どれだけ相関が強いかを比較することができるのですね。

manabitimes.jp

赤本8章:大数の法則中心極限定理

8章では、統計学を学ぶにあたりかなり重要な二つの定理を学びます。これらの定理は、次の9-10章で学ぶ「標本分布」の考え方と密接に関わってきそうです。

7章までは確率分布について学んできました。この8-10章の間で学ぶ標本分布の考え方は、これまでの確率分布と11章以降の推測統計の話との橋渡しをしてくれる役割を担っているんですね。

本来はゴリゴリ計算したり証明したりすることで深い統計の世界に入り込めるのでしょうけど、ここでは引き続きイメージを掴むに留めます。

前提の考え方

前提の考え方として、今後の章の話にもなりますが、推測統計でやりたいことは次のようなことです。

データの分布を調べたい何らかの母集団があるとします。しかしあまりに対象が多いためすべてを調べる訳にもいかないので、そこからいくつかのサンプル、すなわち標本をランダムに抽出して、データを調べてみようと考えました。前者のやり方を全数調査、後者のやり方を標本調査といいます。

そして、目標は次の通り。

【目標】
ランダムに抽出した標本がとる平均の分布(標本分布)を調べることで、本来知りたい母集団の分布(母分布)を推測したい

これが、推測統計を行うモチベーションとなります。

例えば「あるA大学100人の学生の身長の分布を調べたい」という場合を考えてみると、母集団はA大学の学生100人全体、標本はその中からランダムに選ばれた10人ということになります。

10人分の身長を測ってその平均値を記録し、そのような標本抽出を何度も何度も行って同じように10人分の平均値を記録していくと、その平均値は何らかの分布を作りますよね。これが標本分布であり、この標本分布を調べることで母分布の平均値を推測する、 というのが前提の考え方となります。

大数の法則

大数の法則のイメージは、母集団から選ぶ標本の数を大きくすれば大きくするほど、標本分布の平均値は母分布の平均値に近づいていくよ、というものです。

例えば、コイン投げをn回やる試行で考えてみます。コインを投げて表が出る確率は1/2なので、これは二項分布Bi(n , 1/2)となります。表が出たときを1, 裏が出たときを0としてn回の平均値を取ると、その真の平均値は1/2となります。この真の平均値が、目標としている母分布の平均値、すなわち母平均にあたります。

一方で、実際に観測される平均値は、コイン投げの結果によってランダムに0か1の値を取ります。表と裏がぴったり同じ数だけ出ることは少なく、なぜか表がやたら多かったりすることもありますよね。この観測される平均値が、サンプルとして調べた標本の平均値、すなわち標本平均にあたります。

そしてこのn回のコイン投げを何セットも行うことで、標本平均の分布、すなわち標本分布というものができてきます。

ここで試行回数nに着目してみましょう。nをどんどん大きくしていくとき、各セットで「観測される平均値」は「真の平均値」に近い確率が高くなっていきます。つまり、標本平均が母平均にどんどん近づいていくのですね。これが、大数の法則にあたります。

manabitimes.jp

中心極限定理

中心極限定理のイメージは、母分布が何であっても、母集団から選ぶ標本の数を大きくすれば大きくするほど、標本分布は正規分布に近づいていくよ、というものです。

大数の法則では、試行回数nをどんどん大きくしていくとき、標本平均は母平均にどんどん近づいていくのでした。中心極限定理では平均値だけではなく、さらに標本分布の形状が正規分布に近似されていく、ということまで言っています。

中心極限定理は、大数の定理をより精密化したもの、と押さえておくと良さそうです。

manabitimes.jp

manabitimes.jp

Plans

次週も引き続き、授業を受けながら赤本に取り組んでいきます。

統計の学習を始めてから1ヶ月がたちますが、いまだに僕の中でバチッとくる学習のやり方とペースがつかめていない…というのが正直なところなんですよね。授業を受けているのですが、「へーそうなんだ」みたいな感じで進めてしまっていて、なかなか疑問点が出てこないのです。

本当に自分が理解しているのか、こうやってブログで言語化することで確かめていますが、なかなか時間もかかるし説明も適当にすましてしまっている感じもするし、本当に理解につながっているかって難しいですね。

とはいえ、学んだ範囲から一部分だけでも自分の言葉で説明できるようにしていくことで、それが間違っていたとしても前には進んでいるのはないでしょうか。そう前向きに捉えて、一歩ずつ堅実に進んでいけたらよいのかなと思っています。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

note.com