ari23の研究ノート

メーカ勤務エンジニアの技術ブログです

確率統計|確率変数と確率分布とは

業務でまた機械学習をやることになりそうなので、統計解析の基礎から勉強し直しています🐜

今回はその中でも基本中の基本である、確率変数について整理します。

基本用語定義

記号を含めた用語を定義します。

基本記号定義

記号 意味
 \Omega 標本空間 試行によって起こるすべての場合の集合
 P(A) 事象 A\ の確率

確率変数

 \Omega で定義された関数 X = X(\omega) (\omega \in \Omega) を確率変数という。

確率分布と確率関数

確率変数 X に対して、 X についての事象 A と、その確率 P(A) との対応を X の確率分布という。つまり、 X の値がどのように分布しているかを表す。

この確率分布を関数の形で表現したものを確率関数という。

分布関数

確率変数 X に対して、 F(x) = P(X \leq x) (x \in \mathbb{R})  X の分布関数という。

離散型確率分布

確率変数が離散型の場合を改めて整理する。

確率変数

確率変数 X がとびとびの値を取るとき、 X を離散型確率変数という。

例えば、100人を対象とした街頭インタビューで、きのこの山ではなくたけのこの里が好きと答える人数 X は離散型確率変数である。

確率分布と確率関数

 X が離散型確率変数であるとき、その確率分布を離散型確率分布という。

 X のとりうる値全体を {x_1, x_2, ..., x_k, ...} とするとき、

 \displaystyle
P(X=x_k) = p_k  \qquad (k=1, 2, 3, ...)

 X の確率関数という。

例えば、100人を対象とした街頭インタビューで、きのこの山ではなくたけのこの里が好きと答える人数 X とし、このときの P(X=k) (k=0, 1, 2, ..., 100) は確率関数である。

なお、たけのこの里と答える割合を67%(「きのこの山」VS.「たけのこの里」戦争に決着!? 購買データ分析で“大差”あり)とすると、確率変数は二項分布に従うので、確率関数は以下になる1

 \displaystyle
P(X=k) = {}_{100} \mathrm{C} {}_k (0.67)^k (0.33)^{100-k} \qquad (k=0, 1, 2, ..., 100)

分布関数

離散型確率変数 X に対して、以下を X の分布関数という。

 \displaystyle
F(x) = P(X \leq x)

連続型確率分布

確率変数が連続型の場合を整理する。

確率変数

確率変数 X が連続の値を取るとき、 X を連続型確率変数という。このとき、 X の範囲は実数 \mathbb{R} 全体とする。

例えば、ある製品の故障時間間隔 X は連続確率変数である。

確率分布と確率関数

 X が連続型確率変数であるとき、その確率分布を連続型確率分布という。

 X が連続型確率変数で、関数 f(x) (x \in \mathbb{R}) が以下の3つの条件を満たすとき、 f(x)  X の確率密度関数または密度関数という。

 \displaystyle
f(x) \geq 0 \quad (x \in \mathbb{R})
\tag{1}
 \displaystyle
\int_{-\infty}^{\infty} f(x) dx = 1
\tag{2}
 \displaystyle
P(a \leq X \leq b) = \int_{a}^{b} f(x) dx \quad (a \leq b)
\tag{3}

例えば、ある製品の故障時間間隔 X とし、その故障間隔の平均が100としたとき、確率変数 X は指数分布に従うので、確率密度関数 f(x) は次式となる。

 \displaystyle
f(x)=
\begin{cases}
\frac{1}{100} e^{-\frac{1}{100}} & (x \gt 0) \\
0 & (x \leq 0)
\end{cases}

分布関数

分布関数 F(x) (= P(X \leq x)) を確率密度関数 f(x) で表すと次のようになる。

 \displaystyle
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) dt \qquad (x \in \mathbb{R})

上記より、確率または確率関数 P 分布関数 F 確率密度関数 f の三者を以下のように整理できる。

確率と分布関数と確率密度関数
確率と分布関数と確率密度関数

離散型確率分布と連続型確率分布の違い

離散型と連続型で明らかな違いは、次の性質である。

確率変数 X が連続の値で、 a が任意の実数であるとき、次式が成り立つ。

 \displaystyle
P(X=a) = \int_{a}^{a} f(x) dx = 0

上式から以下が成り立つ。

 \displaystyle
P(a \leq X \leq b) = P(a \lt X \leq b) = P(a \leq X \lt b) = P(a \lt X \lt b)

したがって連続型において、区間の端点を含むか含まないかは確率に影響しない。
また、確率が0であることは、必ずしもその事象が起こらないことを意味するわけではない。

おわりに

PRMLを読んでいて、確率関数や確率分布など言葉の定義が自分の中でかなり曖昧であることに気づいたので、今回整理しました。

参考になれば幸いです(^^)

以下では、確率統計の基本レベルを整理していますので、よろしければご覧ください。

Probability statistics カテゴリーの記事一覧 - ari23の研究ノート

参考文献

参考文献は以下の通りです。




  1. 私はたけのこ派です。