『データ解析のための統計モデリング入門』(通称緑本)を読んだ

ようやく緑本を読んだ。
緑本とはデータサイエンティスト界隈で有名な『データ解析のための統計モデリング入門』という本のことである。
この本はデータ解析を学ぶ入門本としてとても評価が高くいつかは読まなければなあと思っていて、仕事でデータ解析のタスクもやることになったのでこれはいい機会だと思って読んでみた。

statisticsmodelingbook

難しい…なんて難しいんだ。
平易な文章なので終わりまでさらっと読めるので、読んだだけでできる気になってしまうが内容は入門といえど難しい。
1回読んだだけで理解したと勘違いしてしまったら終わり。
難しいと感じてしまうのはところどころ数学が絡んでおり、行列やら積分やらが出て来るので高校数学を復習した上で再読したほうがよさそう。
そのほうが深い理解に繋がるはず。

なので高校の数学の教科書を引っ張り出した。
もう一度基礎を復習してからこの本を再読することにする。

この本を読み始めたときは、ロジスティック回帰、ランダムフォレスト、エラスティックネットで確度の高い統計モデルを構築しなければ!そのために知識を得なければ!という事情があり必要に迫られてこの本を読んでいたのだが、これらの統計モデリングよりも協調フィルタリングでのレコメンドのほうが今のシステムと相性よさそう、という方向になったため今はこの本で言及しているデータ解析・統計モデリングについての知識がそれほど必要ではなくなったのがちょっと残念と感じている。 ただ、Webシステム以外にデータ解析のところの知識を得ることができたので非常によいことだと思っている。

分析対象のデータに応じてどのような確率分布を選択すればいいか、など非常にためになった。

本の内容は以下となっている。

第1章 データを理解するために統計モデルを作る
第2章 確率分布と統計モデルの最尤推定
第3章 一般化線形モデル(GLM) -ポアソン回帰-
第4章 GLMのモデル選択 -AICとモデルの予測の良さ-
第5章 GLMの尤度比検定と検定の非対称性
第6章 GLMの応用範囲をひろげる -ロジスティック回帰など-
第7章 一般化線形混合モデル(GLMM) -個体差のモデリング-
第8章 マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル
第9章 GLMのベイズモデル化と事後分布の推定
第10章 階層ベイズモデル -GLMMのベイズモデル化-
第11章 空間構造のある階層ベイズモデル

この本を読んで一番ドキッとしたのは下記の一句である。

このように「理解しないままソフトウェアを使う」作法を、仮にブラックボックス統計学と呼ぶことにしましょう。これは疑似科学の作法です。

正直、自分のやっていることをブラックボックス統計学ではないと否定できない。
そのためには知識が肉となるまで学習しなければ。

世間一般のデータサイエンティストはこのくらいは常識なのだろうか? もしかしたら多数のデータサイエンティストもブラックボックス統計学なのかもしれない。
この本は非常に学べるものが多かったので何度も読み返そうと思う。

最近は新しい分野に挑戦することが多く入門本を読むことが多いなぁ…
でもどれも入門レベルと謳ってるわりには難しいという…