EMアルゴリズム

統計学機械学習

EM アルゴリズムは，不完全データに基づく統計モデル一般に適用される，最尤推定量を導出するためのアルゴリズムです．もともと，「不完全データ・完全データ」という概念は欠損データの問題に対処するために立てられましたが，定義を拡張…

#統計学 #EMアルゴリズム

2019-08-20

2019上半期・買った本/読んだ本まとめ

日記書評

2019年上半期に読んだ本。新書・文庫本話題・啓蒙理工学情報系新書・文庫本問題解決の心理学―人間の時代への発想 (中公新書 (757))作者: 安西祐一郎出版社/メーカー: 中央公論社発売日: 1985/03/23メディア: 新書購入: 7人クリック: 23回この商品を含…

2019-07-04

Ubuntu 16.04.6 LTS (GNU/Linux, x86_64) のGPUマシンの設定・TF1.13.1 / CUDA10.0 / cuDNN7.4.2

計算機環境

- 最終更新：2019/11/07 クリーンブートしたUbuntu16.04LTS マシンに，NVIDIA GPUを導入し，CuDA・cuDNNをセットアップしました．おもにtensorflow-gpuを使うためです．導入過程で色々とつまづいたので，得た知識をこのポストにまとめておきます．実行環境…

2019-07-02

ARMA Process（自己回帰移動平均過程）

統計学

このポストでは，時系列データに対する基本的なモデル，ARMA過程についてまとめます．画像はAmazon.comの株価推移です． MA(q)過程: Moving average process AR(p)過程: Autoregressive process ARMA(p,q)過程: Autoregressive moving average process 参考…

2019-06-19

Johnson and Lindenstrauss Lemmaとその構成論的証明

数学統計学

JL-補題構成論的証明参考文献ランダム行列理論（Random projection）の基本定理であるJohnson and Lindenstrauss Lemmaについて解説します． JL-補題は「変換前後でサンプル点どうしのユークリッド距離を変えない」ような関数の存在を主張しており，これ…

2019-05-28

機械学習でよく使う評価指標まとめ

機械学習統計学 Kaggle 備忘

このポストでは，機械学習でよく使われる評価指標を，回帰・分類に分けて整理します．また，各評価指標の定義だけではなく，その性質や使用上の注意点などにも言及しました．なお，"網羅性"を過度に追求して，世にある評価指標を片っ端からリストアップする…

#データサイエンス #統計学 #機械学習 #Kaggle

2019-05-28

Markdownエディタ "Typora" の紹介とショートカット [macOS Mojave 10.14.4]

備忘計算機環境

Typoraの紹介ダウンロードショートカット (Mac OS) カーソル操作フォーマットの挿入ファイル操作 Typoraの紹介 Typoraは，高機能＆シンプルなMarkdownエディタです．最大の特徴は，Markdownコードを書くと，エディタ上で即座にレンダリングされ，インタ…

2019-05-18

Donsker-Varadhan representation（DV下限）

数学統計学

定理（DV表現）連続確率変数に対して，確率密度関数が定義されているとき，以下の関係式が成り立ちます．この式を，Donsker-Varadhan representation*1といい，右辺をDV下限と言います． $$ \mathbb{D}_{KL}(q || p) = \underset{T: X \to \mathbb{R} }{\…

#数学 #統計学 #ランダム行列

2019-04-26

Numpyでカーネル回帰

Python 統計学機械学習

カーネル法は，非線形データ解析に対する強力な武器です．ソフトマージンSVM・ガウス過程・クラスタリングなどのアルゴリズムの基本要素として頻出します．このポストでは，カーネル法を使って回帰問題を解く手続きを，Pythonで再現してみました． ※ なお，…

2019-03-31

AICの導出：平均対数尤度の摂動を近似する

統計学数学

1. 確率モデルとKL情報量 2. パラメトリックモデルを考える 3. バイアスの不偏推定量を求める 3.1 Dを分解する． 3.2 バイアスの推定量（Dの漸近推定量） 3.3 2つの重要な行列 4.AICの導出このポストでは，赤池情報量規準(AIC, Akaike Information Criterio…

2019-02-24

PAC学習と計算論的学習理論(Computatinonal Learning Theory)の文献まとめ

機械学習

PAC学習 (Probability Approximately Correct learning) とは、イギリスの理論計算機科学者 Leslie Valiant が1984年に以下の論文で初めて提唱した概念で、計算機科学の分野でそれまで研究されていた一般的な計算アルゴリズムの効率性・複雑性に対して、学習…

2019-02-06

最尤推定量とワルド検定・スコア検定・尤度比検定

統計学

1. パラメータの尤もらしさに関する統計的仮説検定 1.1 ワルド検定（Wald test） 1.2 スコア検定（Score test） 1.3 尤度比検定（Likelihood ratio test） 2. KL-divergenceとFischer情報量の関係 2.1 スコア関数とFischer情報量の定義 2.2 KL-divergence 3.…

#統計学 #仮説検定 #最尤法 #ワルド検定 #スコア検定 #尤度比検定

2019-02-03

ガウス過程と回帰モデル（線形~線形基底~ガウス過程）

統計学機械学習 Python

1. ガウス過程（GP, Gaussian Process） 1.1 ガウス分布の共役性 1.2 ガウス分布の切断と周辺化 1.3 ガウス過程の定義 2. さまざまな回帰モデルの比較 2.1 回帰問題とは？ 2.2 線形回帰モデル 2.2.1 線形回帰モデルの準備 2.2.2 線形回帰モデルのベイズ的解…

2019-01-09

指数分布とワイブル分布をPythonでプロットしてみる

統計学備忘

1. 前提 1.1 確率分布の定義 1. 2 指数分布とワイブル分布の関係 2. Pythonによる実装 2.1 指数分布 2.2 ワイブル分布生存時間解析など、応用範囲の広い指数分布についてまとめます。指数型分布族の仲間としては、ワイブル分布・ガンマ分布の他にも、ポアソ…

2019-01-07

Kullback-Leibler Divergenceについてまとめる

統計学機械学習 Python

1. KL-divergenceとは? 1.1 定義 1.2 基本的な性質 1.3 KL-divergenceは距離なのか？ 2. 諸量との関係 2.1 KL-divergenceと相互情報量 2.2 KL-divergenceと対数尤度比 2.3 KL-divergenceとFisher情報量 3. 参考書籍 !! お知らせ（2020.06.10） * こちらの記…