刺激的なタイトルで、これから当分、出版界では
「最強の◯◯」
が流行ることだろう。
が、最初に言っておく。大学生のころに計量経済学を始めて、つかず離れず統計をいじっている私からすると、これは
ウソである
理由を述べる。
伝統的統計学の大半は乱暴にくくると、以下のふたつに集約される。タイトルの本は、この伝統的統計学以上には触れていない。
- 分布を数値化して式で比較しやすくした
- 正規分布に代表される、分布を仮定し、それへの当てはまり具合を判断する
分布を知るには、プロットしたグラフを見ることは数式化しても必須である。逆にいえば、人間はパターンん認識がとても発達しているので、素人はそれでも用事が足りる。
例えば、日本人で平均所得をもらっている人はそんなに多くはない。なぜならば、人数は貧しいほうに大量にいて、金額は大金持ちがかなりのシェアをもつからである。これは分布をグラフで見ないと数式ではなかなか正しいイメージをもてない。
正規分布は偉大な発見である。しかし、正規分布しないものが最近はとても多い。たとえば、地震の発生規模である。ランダムなものはべき乗分布というロングテールを描く。
たしかに製品の誤り率などは正規分布であり、TQCでとても大きい恩恵をもたらした。
が、伝統的統計学が普段役にたつのは、これくらいである。(もちろん、決して小さくはない。)
その後、なにが起きたか?
理工系の学生は実験計画法で確率分布を習ったはずである。(文化系の人間はほとんどこれを学ばないから、世の中を理解するために大事な観点を知らないままでいる)確率分布には実はふたつの考え方がある。
ひとつは、実験データは、とある確率分布のサンプルなのだ、という考え方である。
もうひとつは、実験データを集積することで確率分布が厳密に近似していく、という考え方である。
このふたつは似たようであっても違う。ひとつめはプラトンのいうイデアのように、この世に抽象的な理想世界があることを想定している。ふたつめは分布はたまたま決まっていくだけだと捉えている。
このふたつの考えを争っているうちに、とんでもないものが出てきた。
それが、
ベイズ統計学
である。
ベイズ統計学について、いろいろ語るほど知っているとはいえないが、上のように分布がわからない時、ベイズ統計学は「わからないなら1/2の確率である」からスタートして計算を始めるのである。
分布がなんだとかは問わない。
理屈は端折って、今はここ。
スパムメールの解析もウィルスの解析も検索エンジンの言葉の関連性も、みーんなベイズ統計学。
「統計学は最強の学問」かというと、すでに置き去りにされているように思う。