メモ: CSに役立ちそうな数学
どんな分野であれ、最先端に進むためには数学に関するある程度の知識と教養が必要。
ということで 情報系をやる上で特に役立ちそうな分野をピックアップしてみます。
(パーフェクトに主観で語っているので、重大な思い違いがあるかもしれないです。)
Computer Scienceに役立ちそうな数学
→これを修めないと何も始まらない。
- 集合と位相
→集合は言わずもがなとして、位相も理解すれば思考の抽象度が上がりそう
→群と位相をきちんと理解できれば、色々役立ちそう
→最適化やアルゴリズム, データ構造, 計算量などを基礎づけているぽい
→高次元を定式化する時に必須. 線形代数を解析的に操作できる.
→数学の作法で統計学を扱うなら、空間(位相, 集合)の概念も理解する方が良い
→あらゆる工学で使われているし、電子/電気工学と相性がよい
- 数値解析(変分法, 差分法, 近似法)
→離散データの計測, 計算, 処理に不可欠.
→暗号や符号理論の基礎. 離散数学と相性良い?
- 数理論理学, 情報幾何, 計算代数幾何, 複雑性科学, 意味論
→情報とは何か?計算とは何か?を真剣に議論する際に.
統計検定2級に合格した。
日本統計学会と総務省が主催している「統計検定2級」に合格しました。
2級までは、CBT(Computer Based Test)*1での受験が可能なので、いつでも好きな日程で受けられます。また2級の難易度に関しては、公式には「大学教養レベル」となっており、準1級および1級が「大学専門レベル」であるので、そこまで難しくはありません。
理系の学部生であれば、実験などで基本的な標本論などを扱うので、受けてみる価値はあると思います。
※統計検定2級の出題範囲↓
http://www.toukei-kentei.jp/wp-content/uploads/grade2_hani_170727.pdf
で、今回初めてPCを使った試験を体験したのですが、予想以上に動揺しました。
動揺の理由はこんな感じです。もし受ける方がいたら注意してください。
1. 試験場で使えるものは、PC・電卓・ボールペン・計算用紙の4点セットのみ
(→時計やシャーペン、消しゴムすら持ち込み不可...)
2. 時計がないため残り時間がわからない
(→90分のテストなのでつらい...)
3. 計算用紙は1枚使い終わったら、新しい計算用紙と交換する謎ルール
(→前の問題に戻った時に、計算を初めからやり直す...)
4. 試験時間終了のあと、数クリック進むと採点結果と合否がPCに表示される
(→いきなり結果でてビビる)
合否判定は絶対評価らしく、60/100以上で合格のようです。
僕の結果は、82/100で合格でした。
まあ、所詮は資格試験なので、一喜一憂せずに実力を磨きましょう。。
※ 追記2018/12:統計検定1級(理工学)に合格しました.
*1:コンピュータを使う試験形式
「確率論」(伊藤清, 岩波講座基礎数学)を古本屋にて200円で買った。
先日、神保町の古本屋で「確率論」(岩波書店)を買いました。
お値段はなんと税込200円です。
確率論は統計学はもちろん、確率微分方程式などの解析分野の基礎でもあるので、辞書的に使うのはアリだと思います。
↓表紙はこんな感じ
ところで、数学というのはシビアな世界で、とりわけ定義(公理)と証明(演繹)を重視します。
最近のAIブームの中で、偉い人が「機械学習や数値解析、計算統計学などの分野を学ぶ際には、当然その下位分野も学んでしかるべきである。」という主張をよくしていますが、これは数学の作法として自然なものでしょう。
で、実際、統計・機械学習まわりでは以下のようなお叱りを受けることがしばしばあります。
「機械学習を学ぶ前に、統計学を学びなさい!」
「統計学を学ぶ前に、確率論を学びなさい!」
「確率論を学ぶ前に、測度論を学びなさい!」
「測度論を学ぶ前に、解析論を学びなさい!」
... (以下略
まあ、正しいといえば正しいのですが、この辺の線引きはかなり難しいですよね笑
ちなみに、「ビジネスマンはC言語を学ぶべきか?問題」も同様の例だと思います。
んま、時間の許す限り勉強しましょうという結論ですね。。。
P.S.
伊藤清先生は確率論の世界的学者です。金融工学の最重要定理である「ブラック=ショールズ方程式」の数学的証明に用いられた「伊藤の補題」の発表者として有名です。伊藤清 - Wikipedia
正規標本論と「t分布」「χ2分布」「F分布」のおさらい
文字を以下のように定義します。
母集団 | 標本(サンプル数 : ) |
---|---|
母平均 | 標本平均 |
母分散 | 標本分散 |
母集団分布 |
A. 1標本の場合
正規母集団に従う確率変数を考える。標本を 、標本のサンプル数をとする。
A-1. 標本平均 の標本分布
※ 標本平均 は、母平均の「不偏推定量」かつ「一致推定量」である。
(1)標本平均 の分布(母分散 が既知)
(2)標本平均 の分布(母分散 が未知)
→ (=t値) は、t分布: に従う。
A-2. 標本分散の標本分布
※ 標本分散 は、母分散 の「不偏推定量」かつ「一致推定量」である。
(3)標本分散 の分布
→ (=)は、分布:に従う。
B. 2標本の場合(XとYは独立)
正規母集団に従う互いに独立な確率変数 と確率変数 を考える。それぞれ標本を , 、標本のサンプル数を , とする。
B-1. 標本平均の差 の標本分布
(1)標本平均の差 の分布(母分散が既知)
→ は、正規分布: に従う。
(2)標本平均の差 の分布(母分散が未知)
→ 母集団が等分散である()ならば (=t値) は、
分布: に従う。
→ 母集団が等分散ではない()ならばウェルチの近似法を使う。
B-2. 標本分散の比 の標本分布
(3)標本分散の比 の分布
→ (=F値) は、分布: に従う。
正規母集団の仮説検定については、以下の記事でより詳しく紹介しています。
yul.hatenablog.com
参考
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
- 作者: 小島寛之
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2006/09/28
- メディア: 単行本(ソフトカバー)
- 購入: 215人 クリック: 3,105回
- この商品を含むブログ (115件) を見る
【備忘録】正規母集団におけるパラメータ{μ, σ}の最尤推定法+α
1. 正規母集団におけるパラメータ{μ, σ}の最尤推定法
2. 等分散正規分布N(μ, c)におけるパラメータ{μ}の最尤推定法は、最小二乗法による推定と同等である
3. コトバの定義おさらい
・母数θ :母集団分布を決定する定数.
・母数空間Θ :母数θがとりうる値の集合.
・最尤原理 :"現実の標本(観測値、データ)は、確率最大のものが実現した"という仮定.
・尤度 :母数空間Θに属する母数θのいろいろな値における「もっともらしさ likelihood」.
同時確率ならば確率の積。
・尤度関数L(θ) :母数空間Θを定義域とする母数θの関数。尤度を表す式.
・最尤推定法 :「尤度関数を母数空間Θにおいて最大にする母数」をその推定値や推定量とする方法.
連続分布の統計モデルの尤度 は、データから得られる「確率密度pの積」
離散分布の統計モデルの尤度 は、データから得られる「確率Pの積」
【チートシート】確率論の基礎事項ざっくりまとめ(平均・分散・共分散・相関係数など)
確率論の基礎と、期待値、期待値、共分散、相関係数についてのざっくりとしたまとめ。間違えがあったら指摘してください!
1. 確率論の基礎:定義・定理集
2. 期待値:
・意味合い
確率変数Xの「重み付き平均」(確率分布の重心).
or確率変数Xの原点まわりの1次モーメント.
・定義
(連続分布)
(離散分布)
※一般性への拡張(PRMLより引用)
ある関数の確率分布の下での平均値をの期待値と呼び、と書く。
(連続分布)
(離散分布)
・定理
※よく使う演算法則
( a.)
( b.)
( c.)
( d.)(加法性)
3. 分散:
・意味合い
確率変数Xの「平均μからの距離の度合い」(確率分布の"ばらつき").
確率変数Xの平均まわりの2次モーメント.
・定義
(連続分布)
(離散分布)
・定理
(1)
(2)
※よく使う演算法則
( a.)
( b.)
( c.)
( d.)
4. 共分散:
・意味合い
確率変数Xと確率変数Yの間の相関によって発生する「ばらつきの"方向性"」.
・定義
(ただし、とする。)
・定理
(1)
(2)(標本共分散に限定)
5. 相関係数:
・意味合い
確率変数Xと確率変数Yの間の相関によって発生する「ばらつきの"方向性"と"強さ"」.
・定義
・定理
(1)一般に、データ列を線形変換しても相関係数の絶対値は変わらない。
(2)一般に、のような線形変換に対して、
(3)
(4)
(5)
6. おまけ:「相関」と「独立」に関する諸定理
(1) ⇔ 「XとYは無相関である.」
(2)XとYが独立である. ⇒ 「XとYは無相関である.」 ⇔
(3) ⇒ 「XとYが独立である.」
(4) ⇒ 「XとYが独立である.」
(5)「XとYが独立である.」 ⇒
(6)「XとYが独立である.」 ⇒
(7)「XとYが独立である.」 ⇒
(8)「XとYが独立である.」 ⇒
※texで書くの疲れた。。
RでGLMあれこれ(ポアソン回帰)
glm()関数を使ってモデリング
データセット:http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/fig/poisson/data3a.csv
0. 統計モデリングの流れ
1. データの確認とモデルの選択要約統計量とグラフから、どの統計モデルを使うべきか決める。
2. 統計モデルの作成:あてはめ(fitting)
GLMであれば、「説明変数」は、いくつかの「母数」によって説明される。
「母数」は、リンク関数(「母数」の関数)と線形予測子(「応答変数」とその「パラメータ」によ
る線形結合)の関係によって推定される。
つまり、リンク関数・線形予測子を決定することで、モデリングが可能に。
3. 統計モデルの検証
3-1. モデルによって「説明」が可能か?(あてはまりの良さ)
3-2. モデルによって「予測」が可能か?(偶然性の小ささ)
1. データの確認とモデルの選択
> d <- read.csv("data3a.csv")#ファイル読み込み > head(d)#データフレームの確認 y x f 1 6 8.31 C 2 6 9.44 C 3 6 9.50 C 4 12 9.07 C 5 10 10.16 C 6 4 8.32 C > summary(d)#f列はCとTの2水準で構成 y x f Min. : 2.00 Min. : 7.190 C:50 1st Qu.: 6.00 1st Qu.: 9.428 T:50 Median : 8.00 Median :10.155 Mean : 7.83 Mean :10.089 3rd Qu.:10.00 3rd Qu.:10.685 Max. :15.00 Max. :12.400 > class(d$y)#yはinteger型 [1] "integer" > class(d$x)#xはinteger型 [1] "numeric" > class(d$f)#fはfactor型 [1] "factor" > plot(d$x, d$y, pch = c(21, 19)[d$f])#CとTで色分けして散布図 > legend("topleft", legend = c("C", "T"), pch = c(21, 19))#CとTの凡例を追加
この散布図に置いて、種子数yを説明変数、体サイズxと施肥処理fを応答変数として、統計モデル(ここではポアソン回帰)を作りたい。とりあえず、いくつかモデルを作りそれぞれの尤度をさぐる。
2. 統計モデルのあてはめ(fitting)
それぞれの仮定した統計モデルに対して、glm()関数で得られたパラメータ()の推定値により、母数()を推定し、さらに得られた母数()から尤度(())を求める。※パラメータ()の推定値を求める過程
・ポアソン分布に従う確率変数の確率密度関数
ある個体において、種子数がである確率はポアソン分布に従っていると仮定すると、以下の式が成り立つ。(ポアソン回帰の一般式)
この式から、パラメータ()推定値は、ポアソン回帰においては以下の式によって導かれる。
すなわち、対数尤度関数を最大にするようなパラメータ()の値を求めれば良い。
以下で異なる3種類のポアソン回帰モデルを立てて、推定結果を比較する。
(モデルA)「yはxによって説明される。」
※各個体について種子数は、integer型で1以上の整数。
i.e.
> fit <- glm(y ~ x, data = d, family = poisson)#glm()関数でモデルの最尤推定値を得る > fit#fitには推定結果が格納されている Call: glm(formula = y ~ x, family = poisson, data = d) Coefficients: (Intercept) x 1.29172 0.07566 Degrees of Freedom: 99 Total (i.e. Null); 98 Residual Null Deviance: 89.51 Residual Deviance: 84.99 AIC: 474.8
(モデルB)「yはfによって説明される。」
※各個体について施肥処理は、factor型でC or Fをとる。
※のダミー変数は、factor型で0 or 1をとる。
i.e.
> fit <- glm(y ~ x, data = d, family = poisson) > fit Call: glm(formula = y ~ x, family = poisson, data = d) Coefficients: (Intercept) x 1.29172 0.07566 Degrees of Freedom: 99 Total (i.e. Null); 98 Residual Null Deviance: 89.51 Residual Deviance: 84.99 AIC: 474.8
・推定結果
β1の推定値 : 1.29172
β2の推定値 : 0.07566
・
(モデルC)「yはxとfによって説明される。」
*** 参考
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る