雑感(日記)

統計学は最強の学問?

刺激的なタイトルで、これから当分、出版界では

「最強の◯◯」

が流行ることだろう。

が、最初に言っておく。大学生のころに計量経済学を始めて、つかず離れず統計をいじっている私からすると、これは

ウソである

理由を述べる。

伝統的統計学の大半は乱暴にくくると、以下のふたつに集約される。タイトルの本は、この伝統的統計学以上には触れていない。

  • 分布を数値化して式で比較しやすくした
  • 正規分布に代表される、分布を仮定し、それへの当てはまり具合を判断する

分布を知るには、プロットしたグラフを見ることは数式化しても必須である。逆にいえば、人間はパターンん認識がとても発達しているので、素人はそれでも用事が足りる。

例えば、日本人で平均所得をもらっている人はそんなに多くはない。なぜならば、人数は貧しいほうに大量にいて、金額は大金持ちがかなりのシェアをもつからである。これは分布をグラフで見ないと数式ではなかなか正しいイメージをもてない。

正規分布は偉大な発見である。しかし、正規分布しないものが最近はとても多い。たとえば、地震の発生規模である。ランダムなものはべき乗分布というロングテールを描く。

たしかに製品の誤り率などは正規分布であり、TQCでとても大きい恩恵をもたらした。

が、伝統的統計学が普段役にたつのは、これくらいである。(もちろん、決して小さくはない。)

その後、なにが起きたか?

理工系の学生は実験計画法で確率分布を習ったはずである。(文化系の人間はほとんどこれを学ばないから、世の中を理解するために大事な観点を知らないままでいる)確率分布には実はふたつの考え方がある。

ひとつは、実験データは、とある確率分布のサンプルなのだ、という考え方である。

もうひとつは、実験データを集積することで確率分布が厳密に近似していく、という考え方である。

このふたつは似たようであっても違う。ひとつめはプラトンのいうイデアのように、この世に抽象的な理想世界があることを想定している。ふたつめは分布はたまたま決まっていくだけだと捉えている。

このふたつの考えを争っているうちに、とんでもないものが出てきた。

それが、

ベイズ統計学

である。

ベイズ統計学について、いろいろ語るほど知っているとはいえないが、上のように分布がわからない時、ベイズ統計学は「わからないなら1/2の確率である」からスタートして計算を始めるのである。

分布がなんだとかは問わない。

理屈は端折って、今はここ。

スパムメールの解析もウィルスの解析も検索エンジンの言葉の関連性も、みーんなベイズ統計学。
「統計学は最強の学問」かというと、すでに置き去りにされているように思う。

関連記事

  1. 風薫る5月

  2. 性の仮想化

  3. 「サザエさん」の作者、長谷川町子は生涯独身だった

  4. フランスの都市伝説

  5. 闇に話してわかるのだろうか?

  6. 婚活というもんが盛んらしい。おっさんは知らんが。

  7. 証券会社はついに変わらず、投資信託の危険性

  8. Googleのパンダアップデート