下校時刻

メモ、読んだ本のまとめメモ、考えたことのメモ、その他のメモなどが書いてあるブログです(twitter: @hoture6)

KaggleのTitanic問題で正解率0.8を超える

昨日の記事の続きです。

hoture6.hatenablog.com

概要

KaggleのTItanic問題についてネット上をいろいろ見てみると正解率80%がちょうど良い目標っぽいので、いろいろ頑張ってみてRandom Forestで80.8%を達成しました。実装は自分で考えつつやったのですが、やった内容のほとんどは以下に示す参考記事をいろいろ見てなんとなく良さそうだな…と思った部分を真似しただけです。

参考記事

Titanic問題のFeature engineering

RandomForestのチューニング

やったこと

  • 名前からTitleを抽出(Mr.やMaster、Missなど)して、年齢の欠損値をSex、Pclass、Titleが同じ人の年齢の中央値で埋める
  • 苗字から家族関係を推定し、自分の家族の生存率を考慮する。全員生存、半分以上生存、全員死亡、その他でカテゴリ分け
  • 家族の人数が0人、1人から3人、4人以上でカテゴリ分け
  • RandomForestのパラメータチューニングを行い、予測

コード