紅崎玲央の学習記録 - 趣味の数学ノート別冊

趣味で数学に取り組む学習記録です。

🗒p.032 - 統計検定2級の直前まとめと受験結果!

2024/03/03、日曜日。

数学検定1級の学習と、統計学の学習に取り組んでいます。

Reviews

昨日、統計検定2級を受けてきました。

www.toukei-kentei.jp

結果は...なんと、見事合格!

ただし、合格点が60点のところ、僕の点数は61点という奇跡的な結果でした。笑

統計学自体は12月から授業を受けて学んできて基礎的な素地は作れていたものの、検定を受けると決めてしっかり対策に取り組んだのが2週間くらい。正直、準備不足のため運ゲーを乗り越えた感じは否めません。

しかし一方で、しっかり取るところ・捨てるところを取捨選択して学習ができたので、そういうところは結果に結びついた一因なのかなとも思います。

ところで、CBT試験はすぐに点数と合否結果が出るのですね。合格発表が出るまでのドキドキ感は味わえませんが、すぐに気持ちを切り替えて次の勉強に移れるので、これはこれで良いなと思いました。

さて、今日の振り返りでは、検定の直前対策としてまとめたことを整理しておきます。

▼参考

toketarou.com

数検2級の直前対策:標本抽出法について

僕がやった過去問範囲では、標本抽出法についての問題がだいたい1問は出てきていました。覚えてしまえばよい分野なので、確実に抑えておきたいです。

「単純無作為抽出」はわかりやすいですね。また、「系統抽出法」は通し番号をつけたのちに等間隔で抽出する方法なので、これも難しくないと思います。

まぎらわしいのが「層化抽出法」「集落抽出法」「二段抽出法」の3つですね。これらの違いを抑えて、間違えないようにしたいところ。

数検2級の直前対策:期待値と分散・共分散

期待値や分散、共分散の公式を使った計算は自在にできるようにしておきたいものです。

いざ問題を解くときに、案外「公式どうだっけ…」と忘れがち。定義と合わせて公式を抑えておきましょう。

分散と共分散の定義や公式は、並べて式の形を見比べると構造が捉えやすいですね。

数検2級の直前対策:推定と検定

推定・検定分野の問題は統計検定2級では頻出とのことで、基本に絞ってひたすら練習しました。

この分野は、まず基本的な推定・検定のやり方流れを抑えておくことが何よりも大切に思いました。問題文からどんな状況・どんなパラメータが与えられているか、そして何を問われているのかを読み取って、図や言葉で整理できることが大前提として必要です。

その上で点数を取るためには、いろんなパターンの推定・検定の問題に触れて、「問題で題材となっている推定・検定で使う統計量はどんな式か」「その統計量が従う分布は何か」を正確に覚えて臨む必要があります。

僕はこのあたり、基本的な流れは掴めたと思うのですが、パターンを全て抑えることまではできませんでした。引き続き勉強していきたい分野です。

Plans

今回の検定試験を受けたことで、自分の理解のあいまいさを痛感したのと同時に、問題を解くのが理解を深めるために良いということを再確認しました。受験して良かったなと思います。

次回は統計検定2級の学習方法の反省をしつつ、今後の数学・統計学の学習プランを整理してみたいと思います。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

📕趣味の数学ノート|紅崎玲央Leo|note

🗒p.031 - 統計検定2級を受けることにしました

2024/02/18、日曜日。

数学検定1級の学習と、統計学の学習に取り組んでいます。

Reviews

3/2に、統計検定2級を受けることにしました。

www.toukei-kentei.jp

実は受けるべきかどうか、ここ数週間悩んでいたのですが、思い切って申し込んじゃいました。悩んでいた理由は、試験のための勉強をして果たして意味があるのかなあ…なんて、漠然と考えていたためです。

数学の学び方には、大きく「理解中心の学習」と「試験問題を解くための学習」がありますよね。なんとなく僕の中でイメージとして、前者は「大学や社会人の数学の学び方」で、後者は「受験生や資格取得のための数学の学び方」というイメージを持っていました。そして、前者の学び方が出来るほうがいいなーとも思っています。

ただもちろん、この二つの学習方法はきっぱり分けて考えることができません。試験問題を題材として解いていく課程で理解が深まるし、逆に理解してレポートを書いたり自分で説明できるようになることが、試験問題を解く際の土台になります。結局、どっちの学習方法が良いかという二択ではなく、何を目的にしてどう勉強に向き合うかだなあと。

先日、試しに数学検定2級の問題集を買って解いてみたところ、これがなかなか面白い。これまでぼんやりとしか理解できなかったことは問題を前にすると解けないんです。

当たり前のことですが、問題を解く前は「授業を聞いたりごく簡単な例題を解いて概要や手順を知っただけで、わかった気になっていた」だけなんですね。なので、試験問題のように違う角度から聞かれるとお手上げになってしまう。そこに気づけたおかげで、どの領域の考え方が自分に身についていないのか、どこを中心に学び直すと効果的なのか、といったポイントが少しクリアになりました。

やはり検定試験というのはよくできた仕組みで、学習の理解度を図るために便利だなあと実感しました。

それと同時に僕の中で、数学を学ぶ姿勢がまだまだ身についていないことにも気付きましたね。そこは反省しつつ、広い視野で数学の学び方を身につけていきたいなあと思います。

Plans

来週には、今受けている統計の授業も最終日を迎えます。今月中に要点を抑えて、統計学の基礎的な学習には一区切りつけられたら良いなと思っています。

  • 赤本の読み直し
  • 統計検定2級に向けた問題練習

とくに今週は「推定」の問題に集中して取り組んでいきたいですね。その過程で、確率分布や標本分布の考え方について、解像度を上げていけると良いなと思います。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

📕趣味の数学ノート|紅崎玲央Leo|note

🗒p.030 - R言語で区間推定をするやり方を学ぶ

2024/02/11、日曜日。

数学検定1級の学習と、統計学の学習に取り組んでいます。

Reviews

ここ二週間で取り組んだこと。

  • 授業視聴
    • 区間推定の概要(赤本11章の範囲)
    • t検定の概要(赤本12章の範囲)
  • R/R Studioでやさしく学ぶ プログラミングとデータ分析
    • 7章:統計処理の基本
    • 8章:データ分析の基本

推測統計の山場、という感じですかね。相変わらず、授業の時には理解できている「つもり」でも、あとから授業の内容を振り返ってもなかなか思い出せなかったりします。

そもそも勉強時間が足りていないのももちろんですが、やはり練習量が圧倒的に足りないのかなーとも思ってしまいます。

ここでは、学んだR言語スクリプトを多少整理してそのままぺたり。あまり良いアウトプットじゃないなと思いつつも、何も書かないよりは良いかな?

R言語正規分布を扱う

#正規分布のデータをランダムに得る
#rnorm関数:正規分布を元に指定した個数の乱数を生成し、ベクトルとして出力する
#rnorm(個数, mean=平均, sd=標準偏差)
rnorm(10, 0, 10)
rnorm(10, 0, 20)

#指定した値の確率密度を得る
#dnorm関数:正規分布で、結果が指定した値になる確率密度を求める
#drorm(値, mean=平均, sd=標準偏差)
dnorm(1, 0, 10)

#指定した値の累積確率密度を得る
#pnorm関数:正規分布で、指定した値以下が得られる確率密度を得る
#pnorm(値, mean=平均, sd=標準偏差)
pnorm(1, 0, 10)

#指定した確率から値を得る
#qnorm関数:正規分布かで、指定した確率以上(以下)になる値はいくつかを調べる。dnormの逆の役割。
#qnorm(確率, mean=平均, sd=標準偏差)
qnorm(0.8, 0, 10)

R言語区間推定を行う

#母平均の区間推定
#母集団が正規分布であることがわかっており、母平均μと母分散σ^2は未知
#標本について、サンプル数n=100、標本平均xar=2.345、標本標準偏差s=0.047
#このとき、母平均を信頼区間90%で区間推定する

xbar <- 2.346
s <- 0.047
n <- 100

t <- qt(p=0.95, df=99)

xbar - t*s/sqrt(n) #2.338196
xbar + t*s/sqrt(n) #2.353804

Plans

しばらく学習のペースが乱れていたので、ここで戻していきたいなと思っています。

具体的には、以下のようなルールを自分の中で決めて取り組んでいきます。特に、自分の中のハードルを下げて焦らず取り組むのが、一番のポイントかなーと思っています。

  • 学習は1日15分〜30分程度でよいので、毎日統計に触れる!
    • 統計授業を見る → その範囲の重要項目をまとめる
    • 赤本を読む → 感想を本の余白にメモ
    • 問題を解く → 手順と要点を余白にメモ
  • 更新内容は簡単で良いので、週1回のこのブログ「趣味の数学ノート別冊」の日曜朝更新!
    • 締め切りとして、書いたところまでで強引にまとめる
    • ボリュームは「少ないかな?」くらいがちょうどよい(3000字程度)

そして今月いっぱいで、統計の授業が一通り終わってしまいます。もう残り期間も少ないですが、終わったときには「授業を通じてこんなことを学んだ!」と言えるような状態になれていればいいな。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

📕趣味の数学ノート|紅崎玲央Leo|note

🗒p.029 - R言語の学習と、学びの習慣化についての考察

2024/01/28、日曜日。

数学検定1級の学習と、統計学の学習に取り組んでいます。

Reviews

先週は、生活と仕事など手をつけなきゃいけないことが多く手一杯になっており、更新をスキップしてしまいました。

統計学の学習についてもここ2週間ほど止まっている状態です。数学検定の学習をしていた頃は、どんなに忙しくても1日15分は手をつけていたのですが。今やっている統計学に関してはそれが上手くできないため、このあたり何か原因を言語化しておきたいところです。

一方で、R言語の学習は少し進めることができました。

  • R/RStudioで優しく学ぶ プログラミングとデータ分析
    • Chapter3 複雑なデータの扱い方

プログラミングは、興が乗ってくるととても楽しいですね。

R言語の学習メモ

R言語の学習での気づきを雑多に書いておきます。

データ型とデータ構造の違い

データ型は値の属性を表すのに対して、データ構造はもっと大きなくくり…という位置づけでしょうか。プログラミング的に表現すると、データ構造はそれが属するクラスに該当するようです。

ここまで学んだ中では、以下のようなデータ型とデータ構造が出てきました。

データ型

  • integer:整数型
  • double:実数型
  • complex:複素数
  • character:文字型
  • logical:論理型

データ構造

  • numeric:数値
  • matrix:行列
  • array:配列

現段階ではざっくりと、ベクトルや行列といった構造を持つひとまとまりのデータの中に、各値がそれぞれの型を持って入っている、というイメージで捉えています。

ベクトルや行列の演算がシンプル

R言語ではベクトルや行列のようなデータ構造を使って、複数の値にそれぞれ同じ演算をする処理がとても簡単にできます。

たとえば、配列の各要素の値を2倍にする計算をしたい場合を挙げます。

僕が他に知っているJavaScriptであれば、この計算をする際に反復メソッドを使う必要がありました。ところがR言語であれば、ベクトルや行列にそのまま演算する形で書けるので、非常にシンプルなコードで実現できます。

R言語での三項演算子的なもの

R言語には、他のプログラミング言語でいう三項演算子のような構文がなく、その代わりに同じような役割を持つ関数があるそうです。

こちらの記事で、いろいろなプログラミング言語三項演算子の構文を比較しています。とても興味深いですね。

qiita.com

統計学の学習習慣が続きづらい理由についての考察

統計学の学習が止まってしまいがちな理由を、まずは思いつく限り挙げてみました。

  • 概念的な学習が主になってきて、捉えどころがないため
  • 問題演習が少なく、課題をクリアしていく感覚が薄い
  • スキマ時間に学習できる教材を決めていないため
  • 上の教材はあるにはあるが、進捗管理ができておらず効果が実感できていないため
  • 資格試験のような明確な目標がないため
  • R言語に気を取られているため

こうやって見てみると、僕はつくづく数学を学ぶ素養が無いのだなあと感じてへこみます。笑

というのも、僕が以前に数学検定の学習が続いていたのは、受験数学のような「問題を解く」ことがベースの学習が好きだからなんだと思います。資格試験という目標に対して、与えられた課題をクリアして点数が取れるようになっていくゲーム感が、モチベーション維持に非常に役に立っていました。

一方で大学数学のような「概念や理論を学ぶ」ということに対しての憧れはあるものの、その楽しさをなかなか見出だせないでいます。今の統計学の学習は、どちらかというとこちらの要素が強いんですね。学んだことを自分の言葉で説明して人に教えてみたり、学んだことを使って何かアウトプットに繋げられると楽しくなるのかな。

また、ここには習慣化の問題もあると思いました。数学検定の学習をしていたときは、iPadに適度な難易度の問題集を入れておいて「15分程度のスキマ時間があれば問題集を進める」ということを習慣化していました。さらに、解いた問題をノートにまとめることで、学んだことを復習しながら進捗管理をしていたのですね。

今の統計学の学習では、このようなスキマ時間の学習と進捗管理が上手く働いていないのだと思いました。学習の習慣化のために、モチベーションに頼らずこの辺の仕組みを改善していきたいと思います。

Plans

来週も統計に関してはお休みにして、R言語の学習に充てたいと思っています。

ただ、完全にお休みするのもモヤモヤするので、授業だけでも参加して追いついていくようにしたいなーと思っています。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

📕趣味の数学ノート|紅崎玲央Leo|note

🗒️p.028 - 統計の学習をサクッと振り返り。気持ちに余裕を

2024/01/14、日曜日。

数学検定1級の学習と、統計学の学習に取り組んでいます。

Reviews

先週は、生活や仕事のことで気持ちに余裕がない状態だったため、いろいろとつまみ食いの学習になってしまいました。ひとつに集中できてないのは、あまり良くない証拠です。

何かアウトプットした方が良いなとは思ったものの、どうにも学習の優先度が下がってしまったため、今回はサクッと振り返るだけに留めます。

  • 授業
    • 11章の範囲
  • 教科書:赤本
    • 9章「母集団と標本」
    • 10章「正規分布からの標本」
  • 計算練習『例題で学ぶ初歩からの統計学
    • 6章「確率変数と確率分布」の例題
  • R言語『R/RStudioでやさしく学ぶ プログラミングとデータ分析』
    • Chapter2「基本文法」

授業では、いよいよ推測統計の章に入ってきました。なんとなく、前回の大数の法則中心極限定理の学習でいったん理解が難解な部分の山場を超えたのかな。説明がスッと入ってくる気がします。

計算練習については、寝る前の1日15分程度、1-2問ずつくらいのスローペースで『例題で学ぶ初歩からの統計学』の確率分布の章を進めました。期待値や分散の計算はなんとなーく答えは出せるのですが、解答の流れをちゃんと説明できなかったり、その数値が意味するところをつかみ切れて無いのかな、という感覚がありますね。

気持ちに余裕があるときにしっかりアウトプットしたいと思います。

一方で最近はプログラミング熱が沸いてきて、R言語の学習に取り組み始めました。なかなか楽しいので、こちらにもうちょっとリソースを割きたいなと思っているところです。

Plans

今週から2週間ほど、学習のメインをいったんR言語にシフトしようと思っています。

  • R言語の学習『R/RStudioでやさしく学ぶ プログラミングとデータ分析』
    • Chapter2「基本文法」
    • Chapter3「複雑なデータの扱い方」
    • Chapter4「データフレームとデータアクセス」
  • 計算練習『例題で学ぶ初歩からの統計学
    • 6章「確率変数と確率分布」の例題

というのも、この先推定や検定の勉強をする際に、授業でおそらくR言語でのシミュレーションをやりながら学ぶことになります。なので、ここらでいったんじっくりとR言語の基礎を習得しておいた方が、頭に入りやすいんじゃないかな?と思ったためです。

僕はプログラミングに関しては、JavaScript, Pythonといったスクリプト言語を個人レベルで使っています。違いを楽しみながらR言語も学べたらいいなと思います。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

note.com

🗒️p.027 - 大数の法則と中心極限定理の意味をざっくりと掴む

2023/12/31、日曜日。

趣味で数学・統計学の学習に取り組んでいます。

Reviews

今週は、年始のバタバタでうまくまとまった学習時間がとれませんでした。そんな中でも授業動画をながら見で復習しながら、赤本の7, 8章を読み進めてみました。

できればもっと確率分布の計算問題を練習したかったのですが、良しとしましょう。

ひとまず、今回の範囲をすべてではないですがわかる範囲で整理していきます。

赤本7章:多次元の確率分布

ここまでの5-6章では、確率変数が1つの場合の確率分布を扱ってきました。これには、例えば次のようなものがありました。

  • 二項分布:表が出る確率p=1/2のコインをn回投げたときに、表が出る回数を確率変数に持つ離散型確率分布
  • ポアソン分布:30分で平均λ回かかってくる電話が、1時間の間にかかって来る回数を確率変数に持つ離散型確率分布
  • 正規分布:わかりやすい事象例はないが、平均値μと分散σ2をパラメータとする、統計学的に意味のある連続型確率分布

この章では、確率変数が2つ、もしくはそれ以上ある場合の確率分布の考え方を学びます。

同時確率分布と周辺確率分布の考え方

考えやすくするため、2変数の離散型確率分布の場合に絞って考えます。

2つの確率変数X, Yについて、X=xであり同時にY=yである確率P(X=x, Y=y) = f(x, y) を、2次元確率変数(X, Y)の同時確率分布と呼びます。

また、同時確率分布から求められるX, Y単独の確率分布P(X=x) = g(x), P(Y=y) = h(y)を、それぞれX, Yの周辺確率分布と呼びます。

これらを、X, Yの2次元の表でイメージをつかんでおきましょう。

ヨコに確率変数Xの値、タテに確率変数Yの値が並んだ確率の表として考えます。そして表のタテ・ヨコの確率をそれぞれ合計して、各X, Yの確率として表の下と右に書いておきます。この2次元の表に並んだ確率が同時確率分布f(x, y)と対応し、下と右に記述したそれぞれの確率変数の合計確率が周辺確率分布g(x), h(y)と対応します。

1次元の確率分布の時には、すべての確率の和が1に等しいのでした。それと同じく、2次元の確率分布でも同時確率分布の合計、それぞれの周辺確率分布の合計はどれも1に等しくなります。

また、周辺確率分布は同時確率分布から導かれますが、逆は成り立ちません。つまり、同時確率分布がわかっていれば行・列の合計で周辺確率分布を計算することができますが、周辺確率分布だけがわかっていても、表の内訳を逆算することはできないんですね。

共分散と相関係数

2変数X, Yの関係を表す数値として、共分散と相関係数があります。

共分散 Cov(X, Y)

共分散は「(Xの偏差 × Yの偏差)の平均」で表されます。

  • Cov(X, Y)が正:XとYは正の相関関係がある(Xが大きいとYも大きい傾向)
  • Cov(X, Y)=0:X, Yは無相関

    - Cov(X, Y)が負:XとYは負の相関関係がある(Xが大きいとYは小さい傾向)

この共分散の値は相関の様子を捉えることはできますが、残念ながら他の分布と比較してどちらがどれだけ相関が強いのかを比較するための指標としては使えないんです。そこで、次の相関係数が指標として役に立ちます。

manabitimes.jp

相関係数 ρ

相関係数「共分散Cov(X, Y)を(Xの標準偏差 × Yの標準偏差)で割った値」となります。

X, Yの共分散をそれぞれの標準偏差で割って、元のデータと単位をそろえつつ標準化することで、指標として使えるようにうまいこと調整した値、とでもいえばよいのでしょうか。

  • ρが正:XとYは正に相関、1に近いほど強い正の相関関係がある
  • ρ=0:X, Yは無相関
  • ρが負:XとYは負に相関、-1に近いほど強い負の相関関係がある

ここでは標準化による調整が効いていて、相関係数ρは-1から1の範囲におさまります。なので複数の分布の相関係数を比較することで、どの分布どれだけ相関が強いかを比較することができるのですね。

manabitimes.jp

赤本8章:大数の法則中心極限定理

8章では、統計学を学ぶにあたりかなり重要な二つの定理を学びます。これらの定理は、次の9-10章で学ぶ「標本分布」の考え方と密接に関わってきそうです。

7章までは確率分布について学んできました。この8-10章の間で学ぶ標本分布の考え方は、これまでの確率分布と11章以降の推測統計の話との橋渡しをしてくれる役割を担っているんですね。

本来はゴリゴリ計算したり証明したりすることで深い統計の世界に入り込めるのでしょうけど、ここでは引き続きイメージを掴むに留めます。

前提の考え方

前提の考え方として、今後の章の話にもなりますが、推測統計でやりたいことは次のようなことです。

データの分布を調べたい何らかの母集団があるとします。しかしあまりに対象が多いためすべてを調べる訳にもいかないので、そこからいくつかのサンプル、すなわち標本をランダムに抽出して、データを調べてみようと考えました。前者のやり方を全数調査、後者のやり方を標本調査といいます。

そして、目標は次の通り。

【目標】
ランダムに抽出した標本がとる平均の分布(標本分布)を調べることで、本来知りたい母集団の分布(母分布)を推測したい

これが、推測統計を行うモチベーションとなります。

例えば「あるA大学100人の学生の身長の分布を調べたい」という場合を考えてみると、母集団はA大学の学生100人全体、標本はその中からランダムに選ばれた10人ということになります。

10人分の身長を測ってその平均値を記録し、そのような標本抽出を何度も何度も行って同じように10人分の平均値を記録していくと、その平均値は何らかの分布を作りますよね。これが標本分布であり、この標本分布を調べることで母分布の平均値を推測する、 というのが前提の考え方となります。

大数の法則

大数の法則のイメージは、母集団から選ぶ標本の数を大きくすれば大きくするほど、標本分布の平均値は母分布の平均値に近づいていくよ、というものです。

例えば、コイン投げをn回やる試行で考えてみます。コインを投げて表が出る確率は1/2なので、これは二項分布Bi(n , 1/2)となります。表が出たときを1, 裏が出たときを0としてn回の平均値を取ると、その真の平均値は1/2となります。この真の平均値が、目標としている母分布の平均値、すなわち母平均にあたります。

一方で、実際に観測される平均値は、コイン投げの結果によってランダムに0か1の値を取ります。表と裏がぴったり同じ数だけ出ることは少なく、なぜか表がやたら多かったりすることもありますよね。この観測される平均値が、サンプルとして調べた標本の平均値、すなわち標本平均にあたります。

そしてこのn回のコイン投げを何セットも行うことで、標本平均の分布、すなわち標本分布というものができてきます。

ここで試行回数nに着目してみましょう。nをどんどん大きくしていくとき、各セットで「観測される平均値」は「真の平均値」に近い確率が高くなっていきます。つまり、標本平均が母平均にどんどん近づいていくのですね。これが、大数の法則にあたります。

manabitimes.jp

中心極限定理

中心極限定理のイメージは、母分布が何であっても、母集団から選ぶ標本の数を大きくすれば大きくするほど、標本分布は正規分布に近づいていくよ、というものです。

大数の法則では、試行回数nをどんどん大きくしていくとき、標本平均は母平均にどんどん近づいていくのでした。中心極限定理では平均値だけではなく、さらに標本分布の形状が正規分布に近似されていく、ということまで言っています。

中心極限定理は、大数の定理をより精密化したもの、と押さえておくと良さそうです。

manabitimes.jp

manabitimes.jp

Plans

次週も引き続き、授業を受けながら赤本に取り組んでいきます。

統計の学習を始めてから1ヶ月がたちますが、いまだに僕の中でバチッとくる学習のやり方とペースがつかめていない…というのが正直なところなんですよね。授業を受けているのですが、「へーそうなんだ」みたいな感じで進めてしまっていて、なかなか疑問点が出てこないのです。

本当に自分が理解しているのか、こうやってブログで言語化することで確かめていますが、なかなか時間もかかるし説明も適当にすましてしまっている感じもするし、本当に理解につながっているかって難しいですね。

とはいえ、学んだ範囲から一部分だけでも自分の言葉で説明できるようにしていくことで、それが間違っていたとしても前には進んでいるのはないでしょうか。そう前向きに捉えて、一歩ずつ堅実に進んでいけたらよいのかなと思っています。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

note.com

🗒️p.026- いろいろな確率分布の概要②連続型

2023/12/31、日曜日。
数学検定1級の学習と、統計学の学習に取り組んでいます。

Reviews

12月に入ってから、すうがくぶんかさんにお世話になって、統計学の基礎を学んでいます

先週は、遅れを取り戻すべく授業と赤本を見返しました。

ちょっとずつ確率分布で押さえておくべきポイントはつかめてきたような、いないような。

それでいて授業で質問をしたいのですが、その質問が出てこないんですよね。まだ、どこがわかってないかわからない、なんとなく授業を聞いてしまっているなと思いました。

今回も、前回に引き続き赤本の6章の範囲からまとめていきます。

いろいろな確率分布のイメージを掴むために、こちらの動画も参考にさせていただいています

www.youtube.com

赤本 第6章:確率分布 ②いろいろな連続型確率分布の概要

今回は連続型のいろいろな分布の概要について整理していきます。

連続型の確率分布として、赤本では正規分布、指数分布、ガンマ分布、ベータ分布、コーシー分布、対数正規分布、パレート分布、ワイブル分布の7つが紹介されています。

連続型:正規分布ガウス分布

正規分布はどうにも「こういう時に現れる確率分布」と簡単に表現できる言葉が無さそうです。ただ、いくつか書籍を調べていると「標準化した二項分布の極限により表される確率分布」と表現しているものを見つけました。

具体的な事例としては非常に多く、「自然に生じる測定誤差や個体差」はこの正規分布に従うことが多いようです。例えば「人の身長の分布」「雨粒の大きさ」などがあります。

正規分布には次のような特徴があります。

  • 平均値μを軸として左右対称の釣り鐘型になっている
  • 区間[μ±3σ]の範囲で確率がほぼ1となる (事実上のすべて、3シグマ範囲)
  • 平均値・最頻値・中央値が一致する

統計学的に非常にたくさんの意味があるのがこの正規分布です。正規分布を標準化した標準正規分布も重要です。

正規分布N(μ, σ2)で表され、パラメータμは平均値、σ2は分散(σは標準偏差)です。標準正規分布N(0, 1)となります。

特に面白い性質として、離散型確率分布である二項分布で、n→∞の極限を取ると連続型の正規分布に近似していくという重要な性質は「中心極限定理」と呼ばれています。

連続型:指数分布

指数分布は「発生率一定のある事象が、次に発生するまでの時間を表す確率分布」です。

具体的な事例として、たとえば「次に地震(災害)が起こるまでの時間」「故障率一定のシステムが次に故障するまでの時間」「原子核崩壊の時間」はこの指数分布に従うようです。発生する確率が小さい稀少事象だからといって遠い未来にしか起こらないのでは無く、近い未来でも起こりうることを示唆する面白い分布だと感じます。

これは、初めてそれが起こるまで待つ時間の長さの確率分布であるため「連続的な待ち時間分布」の性質があります。離散型の時に学んだ幾何分布もそのような性質を持っていましたね。

指数分布はEx(λ)で表され、パラメータλは単位時間あたりに事象が起こる回数です。

この指数関数を一般化したものが、次のガンマ分布になります。

連続型:ガンマ分布

ガンマ分布は「発生率一定のある事象が、ある事象がk回発生するまでの時間を表す確率分布」です。

具体的な事例として、たとえば「10人の来客があるまでにかかる時間」「故障率一定のシステムがあと5回故障するまでの時間」はガンマ分布に従うようです。また「エイズの潜伏期間」もこれに該当するようです。

ガンマ分布はGa(α, λ)で表されます。α=1の時が指数分布に該当しますね。

連続型:ワイブル分布

ワイブル分布は「発生率が一定でないある事象が、次に発生するまでの時間を表す確率分布」です。

具体的な事例として、たとえば「電化製品が故障するまでの時間」

指数分布と似ていますが、異なるのはその発生率が一定と考えられるかどうか、ということです。電化製品などの故障率は基本的には一定ではなく「バスタブ曲線」で表されます。初めのうち・ずっと使っていると故障率が高く、それ以外は偶発的に起こると考えられるんですね。

電球のようにシンプルなもので1回壊れたら終わりなら故障までの時間は指数分布に従い、パソコンや家電製品のように故障率が使用時期によって異なる場合は故障までの時間はワイブル分布に従う、のような捉え方をしておくと良いのかなと思います。

連続型:その他の分布

このほか、赤本ではベータ分布コーシー分布対数正規分布パレート分布が挙げられていますが、こんなのもあるんだーという程度で留めておきます。

コーシー関数は正規分布と似ているのですが、期待値や分散が存在しないらしいです。期待値が存在しないって、どういうことなんだろう?

赤本 第6章:確率分布 ③重要な確率分布3つ

次に離散型、連続型とざっくりとした確率分布について俯瞰して学んできましたが、もうちょっと数式を交えて抑えておこうと思います。

とくに重要な確率分布について3つ、二項分布・ポアソン分布・正規分布について。とくに正規分布は数式での理解が今後書かせないと思うので,抑えておきたいポイントを超簡単に整理しておくことにしました。

二項分布

二項分布の期待値、分散は二項係数を計算して導出しますが、実際の導出はかなり複雑に感じました。累積分布関数を用いると計算はやりやすそうです。

ポアソン分布

ポアソン分布の確率関数は、二項分布の確率関数から極限を取る形で導出できます。期待値と分散が共にλとなるのは興味深いですね。

正規分布

正規分布は標準化の考えが重要そうです。具体的な問題で練習してみたいと思います。

Plans

いまは年末年始で授業もお休みなので、今週はしっかり授業の復習に当てていこうと思います。

来週の振り返りでは、赤本7章について整理したいですね。

またもし余力があれば、確率分布(特に二項分布、ポアソン分布、正規分布)について具体的な問題を練習してみたいなと思っています。練習に良さそうなのは、noteの方でコメントで教えていただいた、こちらの書籍。

ではでは、また来年も楽しく勉強していきましょう。


別ブログ(note)では「社会人の数学の学び方」をテーマにあれこれ書いていますので、良ければそちらもご覧いただけると嬉しいです。

note.com