閃 き

閃き- blog

きらびやかに、美しく、痛烈に.

統計検定2級に合格した。

f:id:yumaloop:20180425132605p:plain
日本統計学会と総務省が主催している「統計検定2級」に合格しました。

2級までは、CBT(Computer Based Test)*1での受験が可能なので、いつでも好きな日程で受けられます。また2級の難易度に関しては、公式には「大学教養レベル」となっており、準1級および1級が「大学専門レベル」であるので、そこまで難しくはありません。

理系の学部生であれば、実験などで基本的な標本論などを扱うので、受けてみる価値はあると思います。

※統計検定2級の出題範囲↓
http://www.toukei-kentei.jp/wp-content/uploads/grade2_hani_170727.pdf


で、今回初めてPCを使った試験を体験したのですが、予想以上に動揺しました。
動揺の理由はこんな感じです。もし受ける方がいたら注意してください。

 1. 試験場で使えるものは、PC・電卓・ボールペン・計算用紙の4点セットのみ
  (→時計やシャーペン、消しゴムすら持ち込み不可...)
 2. 時計がないため残り時間がわからない
  (→90分のテストなのでつらい...)
 3. 計算用紙は1枚使い終わったら、新しい計算用紙と交換する謎ルール
  (→前の問題に戻った時に、計算を初めからやり直す...)
 4. 試験時間終了のあと、数クリック進むと採点結果と合否がPCに表示される
  (→いきなり結果でてビビる)


合否判定は絶対評価らしく、60/100以上で合格のようです。
僕の結果は、82/100で合格でした。


まあ、所詮は資格試験なので、一喜一憂せずに実力を磨きましょう。。

※ 追記2018/12:統計検定1級(理工学)に合格しました.

*1:コンピュータを使う試験形式

「確率論」(伊藤清, 岩波講座基礎数学)を古本屋にて200円で買った。

先日、神保町の古本屋で「確率論」(岩波書店)を買いました。
お値段はなんと税込200円です。

確率論は統計学はもちろん、確率微分方程式などの解析分野の基礎でもあるので、辞書的に使うのはアリだと思います。


↓表紙はこんな感じ
f:id:yumaloop:20180404234353j:plain


ところで、数学というのはシビアな世界で、とりわけ定義(公理)と証明(演繹)を重視します。

最近のAIブームの中で、偉い人が「機械学習や数値解析、計算統計学などの分野を学ぶ際には、当然その下位分野も学んでしかるべきである。」という主張をよくしていますが、これは数学の作法として自然なものでしょう。


で、実際、統計・機械学習まわりでは以下のようなお叱りを受けることがしばしばあります。

機械学習を学ぶ前に、統計学を学びなさい!」
 「統計学を学ぶ前に、確率論を学びなさい!」
  「確率論を学ぶ前に、測度論を学びなさい!」
   「測度論を学ぶ前に、解析論を学びなさい!」
    ... (以下略


まあ、正しいといえば正しいのですが、この辺の線引きはかなり難しいですよね笑

ちなみに、「ビジネスマンはC言語を学ぶべきか?問題」も同様の例だと思います。
んま、時間の許す限り勉強しましょうという結論ですね。。。


P.S.
伊藤清先生は確率論の世界的学者です。金融工学の最重要定理である「ブラック=ショールズ方程式」の数学的証明に用いられた「伊藤の補題」の発表者として有名です。伊藤清 - Wikipedia

正規標本論と「t分布」「χ2分布」「F分布」のおさらい

f:id:yumaloop:20180425131823j:plain

文字を以下のように定義します。

母集団標本(サンプル数 : n
母平均\mu標本平均 \overline{X}
母分散\sigma^2標本分散 s^2
母集団分布N(\mu, \sigma^2)


A. 1標本の場合

正規母集団に従う確率変数Xを考える。
標本を X_1, X_2, ... X_n、標本のサンプル数をnとする。

A-1. 標本平均 \overline{X} の標本分布

※ 標本平均 \overline{X} は、母平均\muの「不偏推定量」かつ「一致推定量」である。

 E(\overline{X})=\mu, ~~~ \displaystyle \lim_{n \to \infty} \overline{X}=\mu

(1)標本平均 \overline{X} の分布(母分散 \sigma^2が既知)

  → \overline{X}は、正規分布:  {\rm N}(\mu,~\sigma^2/n)に従う。
  → \large{\frac{\overline{X} - \mu}{\sqrt{\sigma^2/n}}}は、正規分布:  {\rm N}(0,~1) に従う。

(2)標本平均 \overline{X} の分布(母分散 \sigma^2が未知)

  → \large{\frac{\overline{X} - \mu}{\sqrt{s^2/n}}} (=t値) は、t分布:  {\rm t}\small{(n-1)} に従う。


A-2. 標本分散s^2の標本分布

※ 標本分散 s^2 は、母分散 \sigma^2 の「不偏推定量」かつ「一致推定量」である。

 E({s^{2}})={\sigma^2}, ~~~ \displaystyle \lim_{n \to \infty} {s^{2}} = {\sigma^2}

(3)標本分散 s^2 の分布

  → \large{\frac{(n-1)s^2}{\sigma^2}}(=\chi^2は、\chi^2分布:\chi^2\small{(n-1)}に従う。


B. 2標本の場合(XとYは独立)

正規母集団に従う互いに独立な確率変数 X と確率変数 Y を考える。
それぞれ標本を  \{ X_1, X_2, ... X_m \},  \{ Y_1, Y_2, ... Y_n \}、標本のサンプル数を m, n とする。

B-1. 標本平均の差 \overline{X} - \overline{Y} の標本分布

(1)標本平均の差 \overline{X} - \overline{Y} の分布(母分散{{\sigma_X}^2}, {{\sigma_Y}^2}が既知)

  → \overline{X} - \overline{Y}は、正規分布:  {\rm N} \left( {\mu_X}-{\mu_Y}, {\large \frac{{\sigma_X}^2}{m} }-{\large \frac{{\sigma_Y}^2}{n} } \right)に従う。

(2)標本平均の差  \overline{X} - \overline{Y} の分布(母分散{{\sigma_X}^2}, {{\sigma_Y}^2}が未知)

  → 母集団が等分散である(\small{{{\sigma_X}^2} = {{\sigma_Y}^2}})ならば\large{\frac{(\overline{X}-\overline{Y})-({\mu_X}-{\mu_Y})}{\sqrt{{\frac{{\large s}^{2}}{m}}-{\frac{{\large s}^{2}}{n}}}}} (=t値) は、
       {\rm t}分布:  {\rm t}(m+n-2)に従う。

  → 母集団が等分散ではない(\small{{{\sigma_X}^2} \neq {{\sigma_Y}^2}})ならばウェルチの近似法を使う。

B-2. 標本分散の比 {{s_X}^2}/{{s_Y}^2} の標本分布

(3)標本分散の比  {{s_X}^2}/{{s_Y}^2} の分布

    → \large{{\frac{{s_X}^2}{{s_Y}^2}}{\cdot}{\frac{{\sigma_Y}^2}{{\sigma_X}^2}}} (=F値) は、 {\rm F}分布:  {\rm F}(m-1, n-1)に従う。


正規母集団の仮説検定については、以下の記事でより詳しく紹介しています。
yul.hatenablog.com


参考

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

完全独習 統計学入門

完全独習 統計学入門

【備忘録】正規母集団におけるパラメータ{μ, σ}の最尤推定法+α

f:id:yumaloop:20180324231758p:plain
標準正規関数のプロット

1. 正規母集団におけるパラメータ{μ, σ}の最尤推定

正規分布確率密度関数 p(y~|~\mu, \sigma)

 p(y~|~\mu, \sigma)=\large{\frac{1}{\sqrt{2\pi{\sigma^2}}}}\small{exp\{-\frac{(y - \mu)^2}{2\sigma^2}\}}

#pnorm()関数:確率分布関数
P(1.2<=Y<=1.8) = pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1)#確率変数の値, 平均, 分散
#dnorm()関数:確率密度関数
p(Y=1.8) = dnorm(1.8, 0, 1)#確率変数の値, 平均, 分散

y <- seq(-5, 5, 0.1)
plot(y, dnorm(y, mean = 0, sd = 1), type = "o")
正規分布の尤度関数 L(\mu, \sigma)

「確率 = 確率密度 × Δy」であることから、

 L(\mu, \sigma)=\prod_{i}^{N} ~p(y_i~|~\mu, \sigma){\cdot}\Delta{y}

 ~~~~~~~~~~~=\prod_{i}^{N} \large{\frac{1}{\sqrt{2\pi{\sigma^2}}}}\small{exp\{-\frac{(y - \mu)^2}{2\sigma^2}\}}{\cdot}\Delta{y}・・・①

正規分布の対数尤度関数 \log{L(\mu, \sigma)}

 L(\mu, \sigma)>0より、対数をとると、

 \log{L(\mu, \sigma)}=-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}+N\log{(\Delta{y})}・・・②

②式について、区間\Delta{y}は定数であるからパラメータ{μ, σ}の最尤推定値に影響を与えない。

よって、正規母集団については、以下の③式を使ってパラメータ{μ, σ}の最尤推定ができる。

 \log{L(\mu, \sigma)}=-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}・・・③

2. 等分散正規分布N(μ, c)におけるパラメータ{μ}の最尤推定法は、最小二乗法による推定と同等である

・等分散性を仮定する

さらに、正規分布の「等分散性」を仮定してみる。

パラメータ{σ}(分散)はiに対して定数であるから、③式の対数尤度関数で推定すべきパラメータは、{μ}(平均)のみとなる。


ここで、③式を「等分散性」の仮定のもとで考えると、

 \log{L(\mu, \sigma)}=-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}・・・③

σは定数であることから、-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}} はパラメータ{μ}の最尤推定に影響を与えない。


よって、以下の④式を使ってパラメータ{μ}の最尤推定をする。

・等分散正規分布の対数尤度関数\log{L(\mu, \sigma)}

 \log{L(\mu, \sigma)}=-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}・・・④

すなわち、2乗誤差の和 \sum_{i}^{N} {(y_i - \mu)^2} を最小にするような \hat{\mu} が、最尤法によるパラメータ \mu の推定値となる。

以上の議論は、誤差項が正規分布に従う確率変数y_iについて、y_i = \mu + \varepsilon_iと仮定した場合の「最小二乗法による\muの推定」と同等なものである。


3. コトバの定義おさらい


・母数θ    :母集団分布を決定する定数.

・母数空間Θ  :母数θがとりうる値の集合.

・最尤原理   :"現実の標本(観測値、データ)は、確率最大のものが実現した"という仮定.
 
・尤度     :母数空間Θに属する母数θのいろいろな値における「もっともらしさ likelihood」.
         同時確率ならば確率の積。

・尤度関数L(θ) :母数空間Θを定義域とする母数θの関数。尤度を表す式.

最尤推定法   :「尤度関数を母数空間Θにおいて最大にする母数」をその推定値や推定量とする方法.


  連続分布の統計モデルの尤度 L(\theta_1, \theta_2, ...) は、データから得られる「確率密度pの積」
    L(\theta_1, \theta_2, ...)=\prod_{i}^{N} ~p(y_i){\cdot}\Delta{y}

  離散分布の統計モデルの尤度 L(\theta_1, \theta_2, ...) は、データから得られる「確率Pの積」
    L(\theta_1, \theta_2, ...)=\prod_{i}^{N} ~P(y_i)

【チートシート】確率論の基礎事項ざっくりまとめ(平均・分散・共分散・相関係数など)

f:id:yumaloop:20180323002843j:plain

確率論の基礎と、期待値E(X)、期待値E(X)、共分散Cov.(X, Y)相関係数\rho_{XY}についてのざっくりとしたまとめ。間違えがあったら指摘してください!

1. 確率論の基礎:定義・定理集

☆確率

・加法定理
   P(A{\cup}B)=p(A)+P(B)-P(A{\cap}B)
   特に、{A{\cap}B}{\small=}{\emptyset} ⇒ {P(A{\cup}B)=P(A)+P(B)}

・乗法定理

   P(A{\cap}B)=P(A){\cdot}P(B|A)
   P(A{\cap}B)=P(B){\cdot}P(A|B)

・条件付き確率の定義

   P(A|B)=\large{\frac{P(A{\cap}B)}{P(B)}}
   P(B|A)=\large{\frac{P(A{\cap}B)}{P(A)}}

・全確率の定理

   P(B)=\sum_{i}^{} P(B{\cap}A_i)=\sum_{i}^{} P(B|A_i){\cdot}P(A_i)

ベイズの公式

   P(A_i|B)=\large{\frac{P(B|A_i){\cdot}P(A_i)}{P(B)}}

ベイズの定理

   P(A_i|B)=\large{\frac{P(B|A_i){\cdot}P(A_i)}{\sum_{i}^{} {P(B|A_i){\cdot}P(A_i)}}}

☆確率密度

・同時確率密度関数の定義

   P(X = x, Y = y) = f(x, y)

・周辺確率密度関数の定義

   g(x)=\int_{-\infty}^{\infty} f(x, y) dy
   h(y)=\int_{-\infty}^{\infty} f(x, y) dx]

・条件付き確率密度関数の定義

   g(x|y)=\large{\frac{f(x, y)}{h(y)}}
   h(y|x)=\large{\frac{f(x, y)}{g(x)}}

 すなわち、以下の定理が導かれる。

   f(x, y)=g(x){\cdot}h(y|x)
   f(x, y)=h(y){\cdot}g(x|y)

 よって

   f(x, y)=g(x){\cdot}h(y)\ \Rightarrow\ {XとYは独立}
   g(x|y)=g(x) \ または\ h(y|x)=h(y)\ \Rightarrow\ {XとYは独立}

・条件付き期待値の定義

   E(X|y)=\mu_{X|y}=\int_{X}^{} x{\cdot}g(x|y) dx
   E(Y|x)=\mu_{Y|x}=\int_{Y}^{} y{\cdot}h(y|x) dy

・条件付き分散の定義

   V(X|y)=\int_{X}^{} {(x - \mu_{X|y})^2}{\cdot}g(x|y) dx
   V(Y|x)=\int_{Y}^{} {(y - \mu_{Y|x})^2}{\cdot}h(y|x) dy


2. 期待値:E(X)

・意味合い
 確率変数Xの「重み付き平均」(確率分布の重心).
 or確率変数Xの原点まわりの1次モーメント.

・定義

  E(X)=\int_{-\infty}^{\infty} x{\cdot}f(x) dx(連続分布)
  E(X)=\sum_{i=0}^n x{\cdot}f(x)(離散分布)

  ※一般性への拡張(PRMLより引用)
  ある関数f(x)の確率分布p(x)の下での平均値をf(x)の期待値と呼び、E[f]と書く。

  E[f]=\int_{-\infty}^{\infty} {f(x)}{\cdot}p(x) dx(連続分布)
  E[f]=\sum_{i=0}^n {f(x)}{\cdot}p(x)(離散分布)

・定理

  ※よく使う演算法則
 ( a.)E(c)=c
 ( b.)E(X + c)=E(X) + c
 ( c.)E(cX)=cE(X)
 ( d.)E(X+Y)=E(X)+E(Y)(加法性)


3. 分散:V(X)

・意味合い
 確率変数Xの「平均μからの距離の度合い」(確率分布の"ばらつき").
 確率変数Xの平均まわりの2次モーメント.

・定義

  V(X)=\int_{-\infty}^{\infty} (x - \mu)^2{\cdot}f(x) dx(連続分布)
  V(X)=\sum_{i=0}^n (x - \mu)^2{\cdot}f(x) (離散分布)

・定理

 (1)V(X)=E({(X - E(X))^2})=\int_{-\infty}^{\infty} (x - \mu)^2{\cdot}f(x) dx

 (2)V(X)=E(X^2) - {E(X)}^2

  ※よく使う演算法則
 ( a.)V(c)=0
 ( b.)V(X + c)=V(X)
 ( c.)V(cX)=c^2V(X)
 ( d.)V(X+Y)=V(X)+V(Y)+2Cov.(X, Y)


4. 共分散:Cov.(X, Y)

・意味合い
 確率変数Xと確率変数Yの間の相関によって発生する「ばらつきの"方向性"」.

・定義

  Cov.(X, Y)=E{(X - \mu_X)(Y - \mu_Y)} (ただし、\mu_X=E(X),  \mu_Y=E(Y)とする。)

・定理
 (1)Cov.(X, Y)=E(XY) - E(X){\cdot}E(Y)

 (2)Cov.(X, Y)=\large\frac{1}{n}\small\sum_{i=1}^{n} ({X_i}{\cdot}{X_i}-{\bar{X}}{\cdot}{\bar{Y}})(標本共分散に限定)


5. 相関係数\rho_{XY}

・意味合い
 確率変数Xと確率変数Yの間の相関によって発生する「ばらつきの"方向性""強さ"」.

・定義

  \rho_{XY}=\large\frac{Cov.(X, Y)}{\sqrt{V(X)}\sqrt{V(Y)}}

・定理
 (1)一般に、データ列を線形変換しても相関係数の絶対値は変わらない。

 (2)一般に、x_i^{*}=a{x_i}+b,~y_i^{*}=c{y_i}+dのような線形変換に対して、

    \rho_{XY}^{*}=\large{\frac{a}{|a|}\frac{c}{|c|}}\small{\rho_{XY}}

 (3){\rho_{XY}={\pm1}} \Rightarrow {Y = aX + b}

 (4){\rho_{XY}=0} \Leftrightarrow {XとYは無相関}

 (5){XとYが互いに独立} \Rightarrow {XとYは無相関} \Leftrightarrow{\rho_{XY}=0}

 (6){XとYが互いに独立}\Leftrightarrow {f(x, y)=g(x){\cdot}(y)}
  (※f(x, y)はXとYの同時確率密度関数g(x), h(y)はそれぞれX, Yの周辺確率密度関数


6. おまけ:「相関」と「独立」に関する諸定理

 (1){\rho_{XY}=0}      ⇔ 「XとYは無相関である.」
 (2)XとYが独立である. ⇒ 「XとYは無相関である.」 ⇔ {\rho_{XY}=0}

 (3)f(x, y)=g(x){\cdot}h(y)           ⇒ 「XとYが独立である.」
 (4)g(x|y)=g(x) \ または\ h(y|x)=h(y) ⇒ 「XとYが独立である.」

 (5)「XとYが独立である.」 ⇒ E(XY)=E(X)E(Y)
 (6)「XとYが独立である.」 ⇒ Cov.(X, Y)=0
 (7)「XとYが独立である.」 ⇒ \rho_{XY}=0
 (8)「XとYが独立である.」 ⇒ M_{X+Y(t)}=M_{X(t)}M_{Y(t)}


texで書くの疲れた。。

RでGLMあれこれ(ポアソン回帰)

glm()関数を使ってモデリング

データセットhttp://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/fig/poisson/data3a.csv

0. 統計モデリングの流れ

1. データの確認とモデルの選択
 要約統計量とグラフから、どの統計モデルを使うべきか決める。
2. 統計モデルの作成:あてはめ(fitting)
 GLMであれば、「説明変数」は、いくつかの「母数」によって説明される。
 「母数」は、リンク関数(「母数」の関数)と線形予測子(「応答変数」とその「パラメータ」によ
  る線形結合)の関係によって推定される。
  つまり、リンク関数・線形予測子を決定することで、モデリングが可能に。

3. 統計モデルの検証
 3-1. モデルによって「説明」が可能か?(あてはまりの良さ)
 3-2. モデルによって「予測」が可能か?(偶然性の小ささ)

1. データの確認とモデルの選択

> d   <- read.csv("data3a.csv")#ファイル読み込み
> head(d)#データフレームの確認
   y     x f
1  6  8.31 C
2  6  9.44 C
3  6  9.50 C
4 12  9.07 C
5 10 10.16 C
6  4  8.32 C
> summary(d)#f列はCとTの2水準で構成
       y               x          f     
 Min.   : 2.00   Min.   : 7.190   C:50  
 1st Qu.: 6.00   1st Qu.: 9.428   T:50  
 Median : 8.00   Median :10.155         
 Mean   : 7.83   Mean   :10.089         
 3rd Qu.:10.00   3rd Qu.:10.685         
 Max.   :15.00   Max.   :12.400  
> class(d$y)#yはinteger型
[1] "integer"
> class(d$x)#xはinteger型
[1] "numeric"
> class(d$f)#fはfactor型
[1] "factor"
> plot(d$x, d$y, pch = c(21, 19)[d$f])#CとTで色分けして散布図
> legend("topleft", legend = c("C", "T"), pch = c(21, 19))#CとTの凡例を追加

f:id:yumaloop:20180320232343p:plain
横軸にx列、縦軸にy列をとった散布図
 ポアソン分布に似ている。→ポアソン回帰でGLMが使えそう

この散布図に置いて、種子数yを説明変数、体サイズxと施肥処理fを応答変数として、統計モデル(ここではポアソン回帰)を作りたい。とりあえず、いくつかモデルを作りそれぞれの尤度をさぐる。

2. 統計モデルのあてはめ(fitting)

それぞれの仮定した統計モデルに対して、glm()関数で得られたパラメータ(\beta_1, \beta_2, \beta_3, ...)の推定値により、母数(\lambda_i, )を推定し、さらに得られた母数(\lambda_i)から尤度((L(\lambda_i)))を求める。

※パラメータ(\beta_1, \beta_2, \beta_3, ...)の推定値を求める過程
ポアソン分布Po(\lambda)に従う確率変数x確率密度関数f(x)

  f(x)={\large\frac{\lambda^{x}exp(-\lambda)}{x!}} {\scriptsize  (x = 0, 1, 2, ...)}


ある個体iにおいて、種子数がy_iである確率p(y_i | \lambda_i)ポアソン分布Po(\lambda_i)に従っていると仮定すると、以下の式が成り立つ。(ポアソン回帰の一般式)

  p(y_i | \lambda_i)={\large\frac{\lambda_{i}^{y_i}exp(-\lambda_{i})}{y_i!}} {\scriptsize  (y_i = 1, 2, 3, ...)}


この式から、パラメータ(\beta_1, \beta_2, \beta_3, ...)推定値は、ポアソン回帰においては以下の式によって導かれる。

  \log{L(\beta_1, \beta_2, \beta_3, ...)} = \sum_{i=1}^{n} \log{\large{\frac{\lambda_{i}^{y_i}exp(-\lambda_{i})}{y_i!}}}

すなわち、対数尤度関数\log{L(\beta_1, \beta_2, \beta_3, ...)}を最大にするようなパラメータ(\beta_1, \beta_2, \beta_3, ...)の値を求めれば良い。



以下で異なる3種類のポアソン回帰モデルを立てて、推定結果を比較する。

(モデルA)「yはxによって説明される。」
    ※各個体iについて種子数x_iは、integer型で1以上の整数。
   \lambda_i=exp(\beta_1+\beta_2x_i)
  i.e. \log{\lambda_i}=\beta_1+\beta_2x_i

> fit <- glm(y ~ x, data = d, family = poisson)#glm()関数でモデルの最尤推定値を得る
> fit#fitには推定結果が格納されている

Call:  glm(formula = y ~ x, family = poisson, data = d)

Coefficients:
(Intercept)            x  
    1.29172      0.07566  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:	    89.51 
Residual Deviance: 84.99 	AIC: 474.8

(モデルB)「yはfによって説明される。」
    ※各個体iについて施肥処理f_iは、factor型でC or Fをとる。
    ※f_iのダミー変数d_iは、factor型で0 or 1をとる。

   \lambda_i=exp(\beta_1+\beta_3d_i)
  i.e. \log{\lambda_i}=\beta_1+\beta_3d_i

> fit <- glm(y ~ x, data = d, family = poisson)
> fit

Call:  glm(formula = y ~ x, family = poisson, data = d)

Coefficients:
(Intercept)            x  
    1.29172      0.07566  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:	    89.51 
Residual Deviance: 84.99 	AIC: 474.8

・推定結果
β1の推定値 : 1.29172
β2の推定値 : 0.07566

(モデルC)「yはxとfによって説明される。」

【書評】『統計学入門』(東京大学出版)~統計学入門書の金字塔~

f:id:yumaloop:20180320170554j:plain

2017年の年末くらいから、統計学を本格的に学んでみようと思っていたので、まず読み始めたのがこの本です。Googleで「統計学 本」で検索すると、絶対にこの本がヒットするくらい有名。

 

以下書評です。↓(´・ω・`)

 

1. 書籍情報

細かな情報

f:id:yumaloop:20180320010625j:plain

・書名  : 統計学入門

・著者名 : 東京大学教養学部統計学教室

・出版社 : 東京大学出版会      

・種別  : 単行本, 307ページ       

・発売日 : 1991/7/9         

・予算  : 3024円  (※Amazonでの価格)  

Amazonのリンクはこちら

姉妹本として、おもに理系分野よりの『自然科学の統計学』、文系分野よりの『人文・社会科学の統計学』の2冊が出版されています。こちらは、より発展的な内容。

 

関連書籍との比較 -言わずと知れた統計学の本格的な入門書

 この本は、統計学をまったく知らない人が読んでもわかるように書かれており、いわゆる「入門書」に相当します。しかし、この本のamazonレビューをみると、「数式が多い」「文章が長い」「文系にはきびしい」という意見もあります。どういうことでしょうか?

 

結論から言うと、「この本が扱っている範囲は入門~基礎レベルであるが、それに対する説明・解説は応用レベルの専門書と同様にきちんとしている」です。

 

 統計学の本で、”入門”や”基礎”をタイトルに含む書籍はたくさんありますが、『統計学入門』は、これらの書籍の中では一番本格的です。すなわち、扱っているトピックは基礎レベルにとどめつつも、各トピックの解説では、サブトピックや数学的な導出過程、その応用手法にも言及しているため、そこそこ重厚感があります。*1

 

 なお、この本で扱っている範囲は、統計学の歴史、記述統計学*2、確率論*3、推定統計学*4などで、他の入門書とほぼ同じです。

(※参考URL: 統計学 - Wikipedia,  要約統計量 - Wikipedia,  推計統計学 - Wikipedia

 

時代背景 -90年代とコンピュータの普及

 この本の初版は1991年に出ています。1991年というのは、InternetやPCが本格的に普及される以前で、R・Pythonなどの統計解析プログラムはもちろん世に出ていません。*5しかし、著者たちは、コンピュータの可能性をすでに鋭く察知しています。実際、序文の最後では、プログラミングパッケージの発展を歓迎しつつも、解析過程がブラックボックス化することを憂いた以下のような言及があります。

 

”しかし、方法の意味がわからずに、ただ計算をしてもその結果を正しく利用することはできないし、また場合によっては誤まった判断をくだすことになる危険がある。数理統計学の方法を形式的に説明するだけではなく、その意味を把握するようにすること、それがこの教科書の最も重要な目標である。”

 

著者たちが、

・「ITの発展によって大規模データの取得とその処理が可能になること」

・「統計学の適用範囲が広がり、学習への興味と重要性が増すこと」

といった時代の要請に応える形で、この本を執筆したという経緯がわかります。

 

2. 内容 

章立てと構成

 章立てを見るとわかる通り、過不足ない網羅性に加え、各論が綺麗に分割されています。文体はとても流暢で、ストレスなく読み進められます。

 

・第1章   統計学の基礎
・第2章   1次元のデータ
・第3章   2次元のデータ
・第4章   確率
・第5章   確率変数
・第6章   確率分布
・第7章   多次元の確率分布
・第8章   大数の法則中心極限定理
・第9章   標本分布
・第10章    正規分布からの標本
・第11章    推定
・第12章    仮説検定
・第13章    回帰分析

 

※第1章が「統計学の基礎」、第2章~第3章が「記述統計学」、第4章~第7章が「確率論」、第8章が「漸近論」、第9章~第13章が「推定統計学」に分かれています。

 

 技術書に見られるようなケーススタディや、細かな例題は排除されています。各章は、主要トピックの解説と章末の練習問題で構成されており、内容はできる限り独立するように作られています。もっとも、順番に読み進めるのがオススメです。


3. 感想・まとめ  

感想

非常によい本です。

特に、9章以降の標本論→推定法→仮説検定の流れは大変わかりやすいですし、最後に線型回帰を踏まえる点も美しいです。

 

まとめ

統計学の初学者にとっての素晴らしいテキスト。30版以上を重ねて、今なお売れ続けるベストセラーであり、色あせないバイブルです。

 

統計学を学ぶならまずはコレ!

『統計学入門』(東京大学出版)

 

 

*1:著者たちが、”統計学を自らの課題に応用している”研究者や企業家ではなく、”統計学そのものを研究している”統計学者・数学者であることに起因していると思われる。

*2:要約統計量(平均,分散など)やグラフによる可視化(ヒストグラム、散布図、箱ひげ図)など

*3:基本的な演算規則や定理、確率密度関数と確率分布など

*4:母集団と標本、正規標本論、推定法、仮説検定、回帰分析など

*5:統計解析ソフトに関しては、Rが1996年、Pyshon2が2000年に登場している。90年代でもSASIBM SPSSなどの歴史の古いソフトウェアは既にあった。