1. 試験場で使えるものは、PC・電卓・ボールペン・計算用紙の４点セットのみ
　　（→時計やシャーペン、消しゴムすら持ち込み不可...）
　2. 時計がないため残り時間がわからない
　　（→90分のテストなのでつらい...）
　3. 計算用紙は１枚使い終わったら、新しい計算用紙と交換する謎ルール
　　（→前の問題に戻った時に、計算を初めからやり直す...）
　4. 試験時間終了のあと、数クリック進むと採点結果と合否がPCに表示される
　　（→いきなり結果でてビビる）

合否判定は絶対評価らしく、60/100以上で合格のようです。
僕の結果は、82/100で合格でした。

まあ、所詮は資格試験なので、一喜一憂せずに実力を磨きましょう。。

※ 追記2018/12：統計検定1級（理工学）に合格しました．

*1:コンピュータを使う試験形式

2018-04-05

「確率論」（伊藤清, 岩波講座基礎数学）を古本屋にて200円で買った。

統計学日記

先日、神保町の古本屋で「確率論」（岩波書店）を買いました。
お値段はなんと税込２００円です。

確率論は統計学はもちろん、確率微分方程式などの解析分野の基礎でもあるので、辞書的に使うのはアリだと思います。

↓表紙はこんな感じ
f:id:yumaloop:20180404234353j:plain

ところで、数学というのはシビアな世界で、とりわけ定義(公理)と証明(演繹)を重視します。

最近のAIブームの中で、偉い人が「機械学習や数値解析、計算統計学などの分野を学ぶ際には、当然その下位分野も学んでしかるべきである。」という主張をよくしていますが、これは数学の作法として自然なものでしょう。

で、実際、統計・機械学習まわりでは以下のようなお叱りを受けることがしばしばあります。

「機械学習を学ぶ前に、統計学を学びなさい！」
　「統計学を学ぶ前に、確率論を学びなさい！」
　　「確率論を学ぶ前に、測度論を学びなさい！」
　　　「測度論を学ぶ前に、解析論を学びなさい！」
　　　　... (以下略

まあ、正しいといえば正しいのですが、この辺の線引きはかなり難しいですよね笑

ちなみに、「ビジネスマンはC言語を学ぶべきか？問題」も同様の例だと思います。
んま、時間の許す限り勉強しましょうという結論ですね。。。

P.S.
伊藤清先生は確率論の世界的学者です。金融工学の最重要定理である「ブラック＝ショールズ方程式」の数学的証明に用いられた「伊藤の補題」の発表者として有名です。伊藤清 - Wikipedia

2018-03-30

正規標本論と「t分布」「χ2分布」「F分布」のおさらい

統計学

f:id:yumaloop:20180425131823j:plain

A. １標本の場合
- A-1. 標本平均の標本分布
- A-2. 標本分散の標本分布
B. ２標本の場合（XとYは独立）
- B-1. 標本平均の差の標本分布
- B-2. 標本分散の比の標本分布
参考

文字を以下のように定義します。

母集団	標本（サンプル数 : $n$ ）
母平均 $\mu$	標本平均 $\overline{X}$
母分散 $\sigma^2$	標本分散 $s^2$
母集団分布 $N(\mu, \sigma^2)$

A. １標本の場合

正規母集団に従う確率変数 $X$ を考える。
標本を $X_1, X_2, ... X_n$ 、標本のサンプル数を $n$ とする。

A-1. 標本平均 $\overline{X}$ の標本分布

※ 標本平均 $\overline{X}$ は、母平均 $\mu$ の「不偏推定量」かつ「一致推定量」である。

$E(\overline{X})=\mu, ~~~ \displaystyle \lim_{n \to \infty} \overline{X}=\mu$

（１）標本平均 $\overline{X}$ の分布（母分散 $\sigma^2$ が既知）

　　→　 $\overline{X}$ は、正規分布: ${\rm N}(\mu,~\sigma^2/n)$ に従う。
　　→　 $\large{\frac{\overline{X} - \mu}{\sqrt{\sigma^2/n}}}$ は、正規分布: ${\rm N}(0,~1)$ に従う。

（２）標本平均 $\overline{X}$ の分布（母分散 $\sigma^2$ が未知）

　　→　 $\large{\frac{\overline{X} - \mu}{\sqrt{s^2/n}}}$ (=t値) は、t分布: ${\rm t}\small{(n-1)}$ に従う。

A-2. 標本分散 $s^2$ の標本分布

※ 標本分散 $s^2$ は、母分散 $\sigma^2$ の「不偏推定量」かつ「一致推定量」である。

$E({s^{2}})={\sigma^2}, ~~~ \displaystyle \lim_{n \to \infty} {s^{2}} = {\sigma^2}$

（３）標本分散 $s^2$ の分布

　　→　 $\large{\frac{(n-1)s^2}{\sigma^2}}$ （＝ $\chi^2$ ）は、 $\chi^2$ 分布： $\chi^2\small{(n-1)}$ に従う。

B. ２標本の場合（XとYは独立）

正規母集団に従う互いに独立な確率変数 $X$ と確率変数 $Y$ を考える。
それぞれ標本を $\{ X_1, X_2, ... X_m \}$ , $\{ Y_1, Y_2, ... Y_n \}$ 、標本のサンプル数を $m$ , $n$ とする。

B-1. 標本平均の差 $\overline{X} - \overline{Y}$ の標本分布

（１）標本平均の差 $\overline{X} - \overline{Y}$ の分布（母分散 ${{\sigma_X}^2}, {{\sigma_Y}^2}$ が既知）

　　→　 $\overline{X} - \overline{Y}$ は、正規分布: ${\rm N} \left( {\mu_X}-{\mu_Y}, {\large \frac{{\sigma_X}^2}{m} }-{\large \frac{{\sigma_Y}^2}{n} } \right)$ に従う。

（２）標本平均の差 $\overline{X} - \overline{Y}$ の分布（母分散 ${{\sigma_X}^2}, {{\sigma_Y}^2}$ が未知）

　　→　母集団が等分散である（ $\small{{{\sigma_X}^2} = {{\sigma_Y}^2}}$ ）ならば $\large{\frac{(\overline{X}-\overline{Y})-({\mu_X}-{\mu_Y})}{\sqrt{{\frac{{\large s}^{2}}{m}}-{\frac{{\large s}^{2}}{n}}}}}$ (=t値) は、
　　　　　　 ${\rm t}$ 分布: ${\rm t}(m+n-2)$ に従う。

　　→　母集団が等分散ではない（ $\small{{{\sigma_X}^2} \neq {{\sigma_Y}^2}}$ ）ならばウェルチの近似法を使う。

B-2. 標本分散の比 ${{s_X}^2}/{{s_Y}^2}$ の標本分布

（３）標本分散の比 ${{s_X}^2}/{{s_Y}^2}$ の分布

　　　　→　 $\large{{\frac{{s_X}^2}{{s_Y}^2}}{\cdot}{\frac{{\sigma_Y}^2}{{\sigma_X}^2}}}$ (=F値) は、 ${\rm F}$ 分布: ${\rm F}(m-1, n-1)$ に従う。

正規母集団の仮説検定については、以下の記事でより詳しく紹介しています。
yul.hatenablog.com

参考

統計学入門 (基礎統計学?)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (79件) を見る

完全独習統計学入門

作者: 小島寛之
出版社/メーカー: ダイヤモンド社
発売日: 2006/09/28
メディア: 単行本（ソフトカバー）
購入: 215人クリック: 3,105回
この商品を含むブログ (115件) を見る

2018-03-24

【備忘録】正規母集団におけるパラメータ{μ, σ}の最尤推定法＋α

統計学

f:id:yumaloop:20180324231758p:plain — 標準正規関数のプロット

1.　正規母集団におけるパラメータ{μ, σ}の最尤推定法

・正規分布の確率密度関数 $p(y~|~\mu, \sigma)$

　 $p(y~|~\mu, \sigma)=\large{\frac{1}{\sqrt{2\pi{\sigma^2}}}}\small{exp\{-\frac{(y - \mu)^2}{2\sigma^2}\}}$

#pnorm()関数：確率分布関数
P(1.2<=Y<=1.8) = pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1)#確率変数の値, 平均, 分散
#dnorm()関数：確率密度関数
p(Y=1.8) = dnorm(1.8, 0, 1)#確率変数の値, 平均, 分散

y <- seq(-5, 5, 0.1)
plot(y, dnorm(y, mean = 0, sd = 1), type = "o")

・正規分布の尤度関数 $L(\mu, \sigma)$

「確率＝確率密度 × Δy」であることから、

　 $L(\mu, \sigma)=\prod_{i}^{N} ~p(y_i~|~\mu, \sigma){\cdot}\Delta{y}$

　 $~~~~~~~~~~~=\prod_{i}^{N} \large{\frac{1}{\sqrt{2\pi{\sigma^2}}}}\small{exp\{-\frac{(y - \mu)^2}{2\sigma^2}\}}{\cdot}\Delta{y}$ ・・・①

・正規分布の対数尤度関数 $\log{L(\mu, \sigma)}$

　 $L(\mu, \sigma)>0$ より、対数をとると、

　 $\log{L(\mu, \sigma)}=-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}+N\log{(\Delta{y})}$ ・・・②

②式について、区間幅 $\Delta{y}$ は定数であるからパラメータ{μ, σ}の最尤推定値に影響を与えない。

よって、正規母集団については、以下の③式を使ってパラメータ{μ, σ}の最尤推定ができる。

　 $\log{L(\mu, \sigma)}=-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}$ ・・・③

2.　等分散正規分布N(μ, c)におけるパラメータ{μ}の最尤推定法は、最小二乗法による推定と同等である

・等分散性を仮定する

さらに、正規分布の「等分散性」を仮定してみる。

パラメータ{σ}（分散）はiに対して定数であるから、③式の対数尤度関数で推定すべきパラメータは、{μ}（平均）のみとなる。

ここで、③式を「等分散性」の仮定のもとで考えると、

　 $\log{L(\mu, \sigma)}=-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}$ ・・・③

σは定数であることから、 $-\large{\frac{1}{2}}\small{N\log{(2\pi\sigma^2)}}$ はパラメータ{μ}の最尤推定に影響を与えない。

よって、以下の④式を使ってパラメータ{μ}の最尤推定をする。

・等分散正規分布の対数尤度関数 $\log{L(\mu, \sigma)}$

　 $\log{L(\mu, \sigma)}=-\large{\frac{1}{2\sigma^2}}\small{\sum_{i}^{N} {(y_i - \mu)^2}}$ ・・・④

すなわち、2乗誤差の和 $\sum_{i}^{N} {(y_i - \mu)^2}$ を最小にするような $\hat{\mu}$ が、最尤法によるパラメータ $\mu$ の推定値となる。

以上の議論は、誤差項が正規分布に従う確率変数 $y_i$ について、 $y_i = \mu + \varepsilon_i$ と仮定した場合の「最小二乗法による $\mu$ の推定」と同等なものである。

3.　コトバの定義おさらい

・母数θ　　　：母集団分布を決定する定数.

・母数空間Θ 　：母数θがとりうる値の集合.

・最尤原理　　："現実の標本（観測値、データ）は、確率最大のものが実現した"という仮定.
　
・尤度　　　　：母数空間Θに属する母数θのいろいろな値における「もっともらしさ likelihood」.
　　　　　　　　同時確率ならば確率の積。

・尤度関数L(θ)　：母数空間Θを定義域とする母数θの関数。尤度を表す式.

・最尤推定法　：「尤度関数を母数空間Θにおいて最大にする母数」をその推定値や推定量とする方法.

　　連続分布の統計モデルの尤度 $L(\theta_1, \theta_2, ...)$ は、データから得られる「確率密度pの積」
　　　　 $L(\theta_1, \theta_2, ...)=\prod_{i}^{N} ~p(y_i){\cdot}\Delta{y}$

　　離散分布の統計モデルの尤度 $L(\theta_1, \theta_2, ...)$ は、データから得られる「確率Pの積」
　　　　 $L(\theta_1, \theta_2, ...)=\prod_{i}^{N} ~P(y_i)$

2018-03-23

【チートシート】確率論の基礎事項ざっくりまとめ（平均・分散・共分散・相関係数など）

統計学

f:id:yumaloop:20180323002843j:plain

確率論の基礎と、期待値 $E(X)$ 、期待値 $E(X)$ 、共分散 $Cov.(X, Y)$ 、相関係数 $\rho_{XY}$ についてのざっくりとしたまとめ。間違えがあったら指摘してください！

1. 確率論の基礎：定義・定理集

☆確率

・加法定理
　　　 $P(A{\cup}B)=p(A)+P(B)-P(A{\cap}B)$
　　　特に、 ${A{\cap}B}{\small=}{\emptyset}$ 　⇒　 ${P(A{\cup}B)=P(A)+P(B)}$

・乗法定理

　　　 $P(A{\cap}B)=P(A){\cdot}P(B|A)$
　　　 $P(A{\cap}B)=P(B){\cdot}P(A|B)$

・条件付き確率の定義

　　　 $P(A|B)=\large{\frac{P(A{\cap}B)}{P(B)}}$
　　　 $P(B|A)=\large{\frac{P(A{\cap}B)}{P(A)}}$

・全確率の定理

　　　 $P(B)=\sum_{i}^{} P(B{\cap}A_i)=\sum_{i}^{} P(B|A_i){\cdot}P(A_i)$

・ベイズの公式

　　　 $P(A_i|B)=\large{\frac{P(B|A_i){\cdot}P(A_i)}{P(B)}}$

・ベイズの定理

　　　 $P(A_i|B)=\large{\frac{P(B|A_i){\cdot}P(A_i)}{\sum_{i}^{} {P(B|A_i){\cdot}P(A_i)}}}$

☆確率密度

・同時確率密度関数の定義

　　　 $P(X = x, Y = y) = f(x, y)$

・周辺確率密度関数の定義

　　　 $g(x)=\int_{-\infty}^{\infty} f(x, y) dy$
　　　 $h(y)=\int_{-\infty}^{\infty} f(x, y) dx$ ]

・条件付き確率密度関数の定義

　　　 $g(x|y)=\large{\frac{f(x, y)}{h(y)}}$
　　　 $h(y|x)=\large{\frac{f(x, y)}{g(x)}}$

　すなわち、以下の定理が導かれる。

　　　 $f(x, y)=g(x){\cdot}h(y|x)$
　　　 $f(x, y)=h(y){\cdot}g(x|y)$

　よって

　　　 $f(x, y)=g(x){\cdot}h(y)\ \Rightarrow\ {XとYは独立}$
　　　 $g(x|y)=g(x) \ または\ h(y|x)=h(y)\ \Rightarrow\ {XとYは独立}$

・条件付き期待値の定義

　　　 $E(X|y)=\mu_{X|y}=\int_{X}^{} x{\cdot}g(x|y) dx$
　　　 $E(Y|x)=\mu_{Y|x}=\int_{Y}^{} y{\cdot}h(y|x) dy$

・条件付き分散の定義

　　　 $V(X|y)=\int_{X}^{} {(x - \mu_{X|y})^2}{\cdot}g(x|y) dx$
　　　 $V(Y|x)=\int_{Y}^{} {(y - \mu_{Y|x})^2}{\cdot}h(y|x) dy$

2. 期待値： $E(X)$

・意味合い
　確率変数Xの「重み付き平均」（確率分布の重心）.
　or確率変数Xの原点まわりの1次モーメント.

・定義

　　 $E(X)=\int_{-\infty}^{\infty} x{\cdot}f(x) dx$ （連続分布）
　　 $E(X)=\sum_{i=0}^n x{\cdot}f(x)$ （離散分布）

　　※一般性への拡張（PRMLより引用）
　　ある関数 $f(x)$ の確率分布 $p(x)$ の下での平均値を $f(x)$ の期待値と呼び、 $E[f]$ と書く。

　　 $E[f]=\int_{-\infty}^{\infty} {f(x)}{\cdot}p(x) dx$ （連続分布）
　　 $E[f]=\sum_{i=0}^n {f(x)}{\cdot}p(x)$ （離散分布）

・定理

　　※よく使う演算法則
　（ a.） $E(c)=c$
　（ b.） $E(X + c)=E(X) + c$
　（ c.） $E(cX)=cE(X)$
　（ d.） $E(X+Y)=E(X)+E(Y)$ （加法性）

3. 分散： $V(X)$

・意味合い
　確率変数Xの「平均μからの距離の度合い」（確率分布の"ばらつき"）.
　確率変数Xの平均まわりの2次モーメント.

・定義

　　 $V(X)=\int_{-\infty}^{\infty} (x - \mu)^2{\cdot}f(x) dx$ （連続分布）
　　 $V(X)=\sum_{i=0}^n (x - \mu)^2{\cdot}f(x)$ （離散分布）

・定理

　（１） $V(X)=E({(X - E(X))^2})=\int_{-\infty}^{\infty} (x - \mu)^2{\cdot}f(x) dx$

　（２） $V(X)=E(X^2) - {E(X)}^2$

　　※よく使う演算法則
　（ a.） $V(c)=0$
　（ b.） $V(X + c)=V(X)$
　（ c.） $V(cX)=c^2V(X)$
　（ d.） $V(X+Y)=V(X)+V(Y)+2Cov.(X, Y)$

4. 共分散： $Cov.(X, Y)$

・意味合い
　確率変数Xと確率変数Yの間の相関によって発生する「ばらつきの"方向性"」.

・定義

　　 $Cov.(X, Y)=E{(X - \mu_X)(Y - \mu_Y)}$ （ただし、 $\mu_X=E(X), \mu_Y=E(Y)$ とする。）

・定理
　（１） $Cov.(X, Y)=E(XY) - E(X){\cdot}E(Y)$

　（２） $Cov.(X, Y)=\large\frac{1}{n}\small\sum_{i=1}^{n} ({X_i}{\cdot}{X_i}-{\bar{X}}{\cdot}{\bar{Y}})$ （標本共分散に限定）

5. 相関係数： $\rho_{XY}$

・意味合い
　確率変数Xと確率変数Yの間の相関によって発生する「ばらつきの"方向性"と"強さ"」.

・定義

　　 $\rho_{XY}=\large\frac{Cov.(X, Y)}{\sqrt{V(X)}\sqrt{V(Y)}}$

・定理
　（１）一般に、データ列を線形変換しても相関係数の絶対値は変わらない。

　（２）一般に、 $x_i^{*}=a{x_i}+b,~y_i^{*}=c{y_i}+d$ のような線形変換に対して、

　　　　 $\rho_{XY}^{*}=\large{\frac{a}{|a|}\frac{c}{|c|}}\small{\rho_{XY}}$

　（３） ${\rho_{XY}={\pm1}} \Rightarrow {Y = aX + b}$

　（４） ${\rho_{XY}=0} \Leftrightarrow {XとYは無相関}$

　（５） ${XとYが互いに独立} \Rightarrow {XとYは無相関} \Leftrightarrow{\rho_{XY}=0}$

　（６） ${XとYが互いに独立}\Leftrightarrow {f(x, y)=g(x){\cdot}(y)}$
　（※ $f(x, y)$ はXとYの同時確率密度関数、 $g(x), h(y)$ はそれぞれX, Yの周辺確率密度関数）

6. おまけ：「相関」と「独立」に関する諸定理

　（１） ${\rho_{XY}=0}$ 　　　　　 ⇔　「XとYは無相関である.」
　（２）XとYが独立である.　⇒　「XとYは無相関である.」　⇔　 ${\rho_{XY}=0}$

　（３） $f(x, y)=g(x){\cdot}h(y)$ 　　　　　　　　 ⇒　「XとYが独立である.」
　（４） $g(x|y)=g(x) \ または\ h(y|x)=h(y)$ 　⇒　「XとYが独立である.」

　（５）「XとYが独立である.」　⇒　 $E(XY)=E(X)E(Y)$
　（６）「XとYが独立である.」　⇒　 $Cov.(X, Y)=0$
　（７）「XとYが独立である.」　⇒　 $\rho_{XY}=0$
　（８）「XとYが独立である.」　⇒　 $M_{X+Y(t)}=M_{X(t)}M_{Y(t)}$

※texで書くの疲れた。。

2018-03-20

RでGLMあれこれ（ポアソン回帰）

統計学

glm()関数を使ってモデリング

データセット：http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/fig/poisson/data3a.csv

0. 統計モデリングの流れ

1. データの確認とモデルの選択
　要約統計量とグラフから、どの統計モデルを使うべきか決める。
2. 統計モデルの作成：あてはめ（fitting）
　GLMであれば、「説明変数」は、いくつかの「母数」によって説明される。
　「母数」は、リンク関数（「母数」の関数）と線形予測子（「応答変数」とその「パラメータ」によ
　　る線形結合）の関係によって推定される。
　　つまり、リンク関数・線形予測子を決定することで、モデリングが可能に。
3. 統計モデルの検証
　3-1. モデルによって「説明」が可能か？（あてはまりの良さ）
　3-2. モデルによって「予測」が可能か？（偶然性の小ささ）

1. データの確認とモデルの選択

> d   <- read.csv("data3a.csv")#ファイル読み込み
> head(d)#データフレームの確認
   y     x f
1  6  8.31 C
2  6  9.44 C
3  6  9.50 C
4 12  9.07 C
5 10 10.16 C
6  4  8.32 C
> summary(d)#f列はCとTの2水準で構成
       y               x          f     
 Min.   : 2.00   Min.   : 7.190   C:50  
 1st Qu.: 6.00   1st Qu.: 9.428   T:50  
 Median : 8.00   Median :10.155         
 Mean   : 7.83   Mean   :10.089         
 3rd Qu.:10.00   3rd Qu.:10.685         
 Max.   :15.00   Max.   :12.400  
> class(d$y)#yはinteger型
[1] "integer"
> class(d$x)#xはinteger型
[1] "numeric"
> class(d$f)#fはfactor型
[1] "factor"
> plot(d$x, d$y, pch = c(21, 19)[d$f])#CとTで色分けして散布図
> legend("topleft", legend = c("C", "T"), pch = c(21, 19))#CとTの凡例を追加

f:id:yumaloop:20180320232343p:plain — 横軸にx列、縦軸にy列をとった散布図

　ポアソン分布に似ている。→ポアソン回帰でGLMが使えそう

この散布図に置いて、種子数yを説明変数、体サイズxと施肥処理fを応答変数として、統計モデル（ここではポアソン回帰）を作りたい。とりあえず、いくつかモデルを作りそれぞれの尤度をさぐる。

2. 統計モデルのあてはめ（fitting）

それぞれの仮定した統計モデルに対して、glm()関数で得られたパラメータ（ $\beta_1, \beta_2, \beta_3, ...$ ）の推定値により、母数（ $\lambda_i,$ ）を推定し、さらに得られた母数（ $\lambda_i$ ）から尤度（（ $L(\lambda_i)$ ））を求める。

※パラメータ（ $\beta_1, \beta_2, \beta_3, ...$ ）の推定値を求める過程
・ポアソン分布 $Po(\lambda)$ に従う確率変数 $x$ の確率密度関数 $f(x)$

　　 $f(x)={\large\frac{\lambda^{x}exp(-\lambda)}{x!}} {\scriptsize (x = 0, 1, 2, ...)}$

ある個体 $i$ において、種子数が $y_i$ である確率 $p(y_i | \lambda_i)$ はポアソン分布 $Po(\lambda_i)$ に従っていると仮定すると、以下の式が成り立つ。（ポアソン回帰の一般式）

　　 $p(y_i | \lambda_i)={\large\frac{\lambda_{i}^{y_i}exp(-\lambda_{i})}{y_i!}} {\scriptsize (y_i = 1, 2, 3, ...)}$

この式から、パラメータ（ $\beta_1, \beta_2, \beta_3, ...$ ）推定値は、ポアソン回帰においては以下の式によって導かれる。

　　 $\log{L(\beta_1, \beta_2, \beta_3, ...)} = \sum_{i=1}^{n} \log{\large{\frac{\lambda_{i}^{y_i}exp(-\lambda_{i})}{y_i!}}}$

すなわち、対数尤度関数 $\log{L(\beta_1, \beta_2, \beta_3, ...)}$ を最大にするようなパラメータ（ $\beta_1, \beta_2, \beta_3, ...$ ）の値を求めれば良い。

以下で異なる３種類のポアソン回帰モデルを立てて、推定結果を比較する。

（モデルA）「yはxによって説明される。」
　　　 ※各個体 $i$ について種子数 $x_i$ は、integer型で1以上の整数。
　　 $\lambda_i=exp(\beta_1+\beta_2x_i)$
　　i.e. $\log{\lambda_i}=\beta_1+\beta_2x_i$

> fit <- glm(y ~ x, data = d, family = poisson)#glm()関数でモデルの最尤推定値を得る
> fit#fitには推定結果が格納されている

Call:  glm(formula = y ~ x, family = poisson, data = d)

Coefficients:
(Intercept)            x  
    1.29172      0.07566  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:	    89.51 
Residual Deviance: 84.99 	AIC: 474.8

（モデルB）「yはfによって説明される。」
　　　 ※各個体 $i$ について施肥処理 $f_i$ は、factor型でC or Fをとる。
　　　 ※ $f_i$ のダミー変数 $d_i$ は、factor型で0 or 1をとる。

　　 $\lambda_i=exp(\beta_1+\beta_3d_i)$
　　i.e. $\log{\lambda_i}=\beta_1+\beta_3d_i$

> fit <- glm(y ~ x, data = d, family = poisson)
> fit

Call:  glm(formula = y ~ x, family = poisson, data = d)

Coefficients:
(Intercept)            x  
    1.29172      0.07566  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:	    89.51 
Residual Deviance: 84.99 	AIC: 474.8

・推定結果
β1の推定値 : 1.29172
β2の推定値 : 0.07566

・

（モデルC）「yはxとfによって説明される。」

*** 参考

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (29件) を見る

閃き- blog

きらびやかに、美しく、痛烈に．

メモ: CSに役立ちそうな数学

統計検定２級に合格した。

「確率論」（伊藤清, 岩波講座基礎数学）を古本屋にて200円で買った。

正規標本論と「t分布」「χ2分布」「F分布」のおさらい

A. １標本の場合

A-1. 標本平均 $\overline{X}$ の標本分布

A-2. 標本分散 $s^2$ の標本分布

B. ２標本の場合（XとYは独立）

B-1. 標本平均の差 $\overline{X} - \overline{Y}$ の標本分布

B-2. 標本分散の比 ${{s_X}^2}/{{s_Y}^2}$ の標本分布

参考

【備忘録】正規母集団におけるパラメータ{μ, σ}の最尤推定法＋α

1.　正規母集団におけるパラメータ{μ, σ}の最尤推定法

・正規分布の確率密度関数 $p(y~|~\mu, \sigma)$

・正規分布の尤度関数 $L(\mu, \sigma)$

・正規分布の対数尤度関数 $\log{L(\mu, \sigma)}$

2.　等分散正規分布N(μ, c)におけるパラメータ{μ}の最尤推定法は、最小二乗法による推定と同等である

・等分散性を仮定する

・等分散正規分布の対数尤度関数 $\log{L(\mu, \sigma)}$

3.　コトバの定義おさらい

【チートシート】確率論の基礎事項ざっくりまとめ（平均・分散・共分散・相関係数など）

1. 確率論の基礎：定義・定理集

☆確率

☆確率密度

2. 期待値： $E(X)$

3. 分散： $V(X)$

4. 共分散： $Cov.(X, Y)$

5. 相関係数： $\rho_{XY}$

6. おまけ：「相関」と「独立」に関する諸定理

RでGLMあれこれ（ポアソン回帰）

0. 統計モデリングの流れ

1. データの確認とモデルの選択

2. 統計モデルのあてはめ（fitting）

*** 参考

A. １標本の場合

A-1. 標本平均 の標本分布

A-2. 標本分散の標本分布

B. ２標本の場合（XとYは独立）

B-1. 標本平均の差 の標本分布

B-2. 標本分散の比 の標本分布

参考

1. 正規母集団におけるパラメータ{μ, σ}の最尤推定法

・正規分布の確率密度関数

・正規分布の尤度関数

・正規分布の対数尤度関数

2. 等分散正規分布N(μ, c)におけるパラメータ{μ}の最尤推定法は、最小二乗法による推定と同等である

・等分散性を仮定する

・等分散正規分布の対数尤度関数

3. コトバの定義おさらい

1. 確率論の基礎：定義・定理集

☆確率

☆確率密度

2. 期待値：

3. 分散：

4. 共分散：

5. 相関係数：

6. おまけ：「相関」と「独立」に関する諸定理

0. 統計モデリングの流れ

1. データの確認とモデルの選択

2. 統計モデルのあてはめ（fitting）

*** 参考

A-1. 標本平均 $\overline{X}$ の標本分布

A-2. 標本分散 $s^2$ の標本分布

B-1. 標本平均の差 $\overline{X} - \overline{Y}$ の標本分布

B-2. 標本分散の比 ${{s_X}^2}/{{s_Y}^2}$ の標本分布

1.　正規母集団におけるパラメータ{μ, σ}の最尤推定法

・正規分布の確率密度関数 $p(y~|~\mu, \sigma)$

・正規分布の尤度関数 $L(\mu, \sigma)$

・正規分布の対数尤度関数 $\log{L(\mu, \sigma)}$

2.　等分散正規分布N(μ, c)におけるパラメータ{μ}の最尤推定法は、最小二乗法による推定と同等である

・等分散正規分布の対数尤度関数 $\log{L(\mu, \sigma)}$

3.　コトバの定義おさらい

2. 期待値： $E(X)$

3. 分散： $V(X)$

4. 共分散： $Cov.(X, Y)$

5. 相関係数： $\rho_{XY}$