機械学習のための数学・統計学、ベイズ確率って何?頻度確率との違いは?

▼この記事をSNSでシェアする▼

スポンサーリンク

スポンサーリンク

機械学習(応用統計学)では、モデルが有意であるかを考える際に、算出した統計量が有意水準を満たしているかを検定する。

その際に大事なベイズ確率の考え方についてまとめます。

Naive Bayesアルゴリズム・ベイジアンモデルとかよく見ますよね

確率とは

世間一般的に「確率」という言葉を用いる時は、以下のような中学の数学で勉強した確率を指すことが多い。

数学では慣例的に確率をP(Probablity)で示し、事象Aが起こる確率はP(A)などと表現される。

例:

コインを投げて表か裏になるかの確率を考える。

コインを10回投げた時、結果は1,2,5,5,6,6,3,2,1,4でした。

11回目にサイコロ投げた時、1が出る確率は何ですか?

※サイコロはイカサマがないものとする。

ー答えは\(\frac{1}{6}\)

過去の結果は関係ありません。

このような確率は、頻度確率と呼ばれます。

ただ統計学で使われるのはこの頻度確率ではなく、

ベイズ確率です。

頻度確率とベイズ確率の違いは?

頻度確率

事象が起こる割合で示される確率

頻度確率=\(\frac{ある事象の場合の数}{全ての事象の場合の数}\)

上の例で言えば、

頻度確率=\(\frac{目が1になる事象の場合の数}{全ての事象(1,2,3,4,5,6)が起こる場合の数}\)=\(\frac{1}{6}\)

ここのサンプルに対して反復可能な事象に対する確率を表すという性質もある。

ベイズ確率

量的な度合いで確実性を示す確率です。

標本の中に、ある事象が起こる標本がどれだけいるかを示します。
上のように、事象の場合の数は考えません。

例:

僕がマッチングアプリで、女性にメッセージを送り、10人中2人返信が来ました。

さて、11人目にメッセージを送った時返信が来る確率はいくつか?

この場合、

10人中2人返信をくれたから、確率は\(\frac{2}{10}\)

P(返信をくれる)=\(\frac{N(返信をくれる標本の数(人数))}{N(標本全体(メッセージを送った人数)}\)

=\(\frac{2}{10}\)

となる。

頻度確率であれば、

頻度確率=\(\frac{ある事象の場合の数}{全ての事象の場合の数}\)

=\(\frac{事象:返信あり}{事象:返信あり、返信なし}\)

=\(\frac{1}{2}\)

となるはずなんですけどねー

このように、人によって返信が来る割合は残念ながら人によって個人差がある。

こうした不確実性を表すのにベイズ確率は使われる()

ベイズの定理

合わせて、機械学習でよく使われるベイズ理論についても触れておこう。

この定理は条件付きの確率に関する定理を指す

  • A:Aさんが宝くじで3等以上を当てる確率
  • B:Bさんが宝くじで3等以上を当てる確率

P(B|A)=Aさんが宝くじで3等以上当ててから、Bさんが宝くじで3等以上を当てる確率

P(A∩B)=AさんとBさんが同時に宝くじを引き、3等以上を当てる確率

P(B|A)=\(\frac{P(A∩B)}{P(A}\)

※P(A)>0とする

転じて

<ベイズの定理>

P(A|B)=\(\frac{P(B|A)P(B)}{P(B)}\)

P(A)

:事前確率

P(B|A)

:尤度(もっともらしさを表す数値)

P(A|B):事後確率

まとめ

今後ベイズ理論をつかったモデルの推定を試してあげたいと思います。

下は自己相関分析のモデルを色々試した際の記事です。

スポンサーリンク


関連記事

▼この記事をSNSでシェアする▼

フォローする

メニュー・主な記事カテゴリ

おすすめ特集!




「ゆとり鳥日記」について
ITを中心に関心の赴くままに好きなように書いていく雑記ブログ!管理人が二人います。
◆フクロウ(ITコンサル)
◆santaka(SE)

詳しいプロフィール
お仕事の依頼・ご要望

ゆとり鳥日記をBTCで応援する