読者です 読者をやめる 読者になる 読者になる

下校時刻

メモ、読んだ本のまとめメモ、考えたことのメモ、その他のメモなどが書いてあるブログです(twitter: @hoture6)

統計の知識が一ミリもない状態からPythonでベイズ推定ができるようになるまでに読んだ本

統計の知識が一ミリもない状態から、3ヶ月くらい勉強してなんとなくPythonでベイズ推定ができるようになったので、その過程で勉強した本を挙げていきます。 勉強した内容は大きく分けて以下です。 統計学の基礎 Pythonによるデータ操作 ベイズ推定とMCMC 統…

「Python Machine Learning」Ch. 10(回帰について)まとめ

いままではすべて分類の話だったのですが、Ch10は回帰について書いてあります。

KaggleのTitanic問題で正解率0.8を超える

昨日の記事の続きです。 hoture6.hatenablog.com 概要 KaggleのTItanic問題についてネット上をいろいろ見てみると正解率80%がちょうど良い目標っぽいので、いろいろ頑張ってみてRandom Forestで80.8%を達成しました。実装は自分で考えつつやったのですが、や…

KaggleのTitanic問題をとりあえず提出する

Kaggleのgetting started的な位置付けのTitanic: Machine Learning from Disaster | Kaggleを解いてみました。今回はscikit-learnを思い出すことと提出することが目的なので、精度は一切求めません(言い訳)。また、他の人の回答を調べているうちに以下のや…

「Python Machine Learning」Ch. 6(scikit-learnのtips)まとめ

Ch. 6はscikit-learnを使った機械学習におけるいろいろなベストプラクティスの話です。cross validationやパラメータチューニングについての話題が多い。

「Python Machine Learning」Ch. 5(次元削減について)まとめ

Ch. 5は次元削減の話です。この章はけっこう難しかったので簡単にまとめて、また興味や必要に応じて戻ってくることにしました。

「データ解析のための統計モデリング入門」 with Python(3):11章の空間構造のある階層ベイズモデルをPyStanで

11章の空間構造を持つモデルをやってみます。PyMCでCARモデルの作り方がわからなかったので、PyStanでやりました。

「データ解析のための統計モデリング入門」 with Python(2):10.5の場所差の階層ベイズモデルをPyMCとPyStanで

10.5節の、個体差に加えて場所差も考慮したベイズモデルを実装します。せっかくなので(?)、PyMC3とPyStan両方でやってみました。 PyMC3 PyStan

「Python Machine Learning」Ch. 4(前処理について)まとめ

Ch. 4は機械学習の前処理の話です。欠損値の処理、カテゴリカル変数の扱い、正則化などscikit-learnにデータを突っ込む前にやるべきことがいろいろ書いてあります。

「Python Machine Learning」Ch. 3(Scikit-learnいろいろ)まとめ

Ch. 3はPythonから動かせる機械学習ライブラリであるscikit-learnを使ってみようという話です。いろいろな機械学習のアルゴリズムの考え方と、scikit-learnでの実装方法が示されます。scikit-learnのAPIがどの手法に対してもほぼ同じなので単に使うだけなら…

「Python Machine Learning」Ch. 2(PerceptronとAdaline)まとめ

Ch. 2は線形分類器としてPerceptronとAdalineを実装する話です。Adalineの学習の方法としてバッチ勾配降下法と確率的勾配降下法、さらにその中間としてミニバッチ勾配降下法が紹介されています。

「Python Machine Learning」Ch. 1(イントロ)まとめ

これから機械学習を勉強していこうと思います(機械学習を学習する人間)。とりあえず「Python Machine Learning」を買ったので、読んでいきます。 Ch. 1の"Giving Computers the Ability to Learn from Data"はイントロで機械学習の基礎知識がまとまってい…

「データ解析のための統計モデリング入門」 with Python(1):10.1の階層ベイズモデルをPyMCで

「データ解析のための統計モデリング入門」、本屋大賞受賞レベルのわかりやすさなんですが、初読時にコードがWinBUGSで実装されている部分を完全に無視して読み進めてしまったのでpymc3で例題を解き直していきます。まずは10章の最初に載っている階層ベイズ…

『Bayesian Methods For Hackers』Ch. 7 まとめ

Ch. 7です。

『Bayesian Methods For Hackers』Ch. 6 まとめ

Ch. 6です。

「StanとRでベイズ統計モデリング」まとめ

https://www.amazon.co.jp/Stan%E3%81%A8R%E3%81%A7%E3%83%99%E3%82%A4%E3%82%BA%E7%B5%B1%E8%A8%88%E3%83%A2%E3%83%87%E3%83%AA%E3%83%B3%E3%82%B0-Wonderful-R-%E6%9D%BE%E6%B5%A6-%E5%81%A5%E5%A4%AA%E9%83%8E/dp/4320112423/ref=pd_sim_14_8?_encoding=U…

『Bayesian Methods For Hackers』Ch. 5 まとめ

Ch. 5です。

『Bayesian Methods For Hackers』Ch. 4 まとめ

Ch. 4です。

素人的に線形代数の重要な概念とその性質を整理する

こんにちは。 久しぶりに線形代数を勉強しようと思ってLinear Algebra Review and Reference - CS 229を読んだので、忘れていた内容を整理します。

『Bayesian Methods For Hackers』Ch. 3 まとめ

Ch. 3です。

『Bayesian Methods For Hackers』Ch. 2 まとめ

Ch. 2です。

『Bayesian Methods For Hackers』Ch. 1 まとめ

最近、ベイズ統計に入門するため Bayesian Methods for Hackers を読んでるのでまとめていきます。自分用のメモという意味合いが強いです。 今日はCh. 1。

審判の判定はホーム・ビジターのチームに対して公平か

こんにちは。 少し前、(書名は忘れてしまったが)野球に関する本に、ホームでの勝率がビジターより高いのはファンの応援のせいでもなく、移動がなくて健康状態が良いからでもなく、球場に慣れているからでもなく、審判のジャッジが不公平(ホーム寄り)だか…

回の先頭打者を四球/死球/単打で出塁させたときどれが一番やばいかを調べる

こんにちは。 毎日生きていると、しばしばやばいことが起こりますね。締め切りがやばい、事務仕事を完全に無視してるのでやばい、働きたくないけど働かなければいけないのでやばい、あらいにたばこの匂いがついているのでやばい(海原雄山)、一番うまい刺身…

pandasでMLBの2001年から2010年のシーズンでもっともチームに貢献した打者を決める

こんにちは。 前回(↓)の続きです。 hoture6.hatenablog.com 得点期待値 前回の記事では、MLBの2001年 - 2010年のデータから、アウト数・ランナー状況別の得点期待値を求めました。得点期待値とは、「その状況であとどのくらい得点が入ることが期待できるか…

pandasでMLBのアウトカウント・ランナー状況別の得点期待値を計算する

こんにちは。 突然ですが、今日は野球の統計学において大切な指標である「得点期待値」を計算していきたいと思います。 得点期待値とは何か 得点期待値とは、「ある状況(アウト数・ランナー)において、その後どのくらい得点が入ることが期待できるか」を表…