雑感(日記)

統計学は最強の学問?

刺激的なタイトルで、これから当分、出版界では

「最強の◯◯」

が流行ることだろう。

が、最初に言っておく。大学生のころに計量経済学を始めて、つかず離れず統計をいじっている私からすると、これは

ウソである

理由を述べる。

伝統的統計学の大半は乱暴にくくると、以下のふたつに集約される。タイトルの本は、この伝統的統計学以上には触れていない。

  • 分布を数値化して式で比較しやすくした
  • 正規分布に代表される、分布を仮定し、それへの当てはまり具合を判断する

分布を知るには、プロットしたグラフを見ることは数式化しても必須である。逆にいえば、人間はパターンん認識がとても発達しているので、素人はそれでも用事が足りる。

例えば、日本人で平均所得をもらっている人はそんなに多くはない。なぜならば、人数は貧しいほうに大量にいて、金額は大金持ちがかなりのシェアをもつからである。これは分布をグラフで見ないと数式ではなかなか正しいイメージをもてない。

正規分布は偉大な発見である。しかし、正規分布しないものが最近はとても多い。たとえば、地震の発生規模である。ランダムなものはべき乗分布というロングテールを描く。

たしかに製品の誤り率などは正規分布であり、TQCでとても大きい恩恵をもたらした。

が、伝統的統計学が普段役にたつのは、これくらいである。(もちろん、決して小さくはない。)

その後、なにが起きたか?

理工系の学生は実験計画法で確率分布を習ったはずである。(文化系の人間はほとんどこれを学ばないから、世の中を理解するために大事な観点を知らないままでいる)確率分布には実はふたつの考え方がある。

ひとつは、実験データは、とある確率分布のサンプルなのだ、という考え方である。

もうひとつは、実験データを集積することで確率分布が厳密に近似していく、という考え方である。

このふたつは似たようであっても違う。ひとつめはプラトンのいうイデアのように、この世に抽象的な理想世界があることを想定している。ふたつめは分布はたまたま決まっていくだけだと捉えている。

このふたつの考えを争っているうちに、とんでもないものが出てきた。

それが、

ベイズ統計学

である。

ベイズ統計学について、いろいろ語るほど知っているとはいえないが、上のように分布がわからない時、ベイズ統計学は「わからないなら1/2の確率である」からスタートして計算を始めるのである。

分布がなんだとかは問わない。

理屈は端折って、今はここ。

スパムメールの解析もウィルスの解析も検索エンジンの言葉の関連性も、みーんなベイズ統計学。
「統計学は最強の学問」かというと、すでに置き去りにされているように思う。

関連記事

  1. 宅配便のシステム(佐川vs.ヤマト)

  2. 日本が誇れるもの

  3. 給料が高すぎても、いろいろ問題が

  4. 仕事を進めるツール

  5. 船橋市西図書館蔵書破棄事件に学ぶ左翼

  6. アキバでの拾い物

  7. 「ものづくり日本」とはとうてい思えない

  8. のっぺりした人