KaggleのTitanic問題で正解率0.8を超える
昨日の記事の続きです。
概要
KaggleのTItanic問題についてネット上をいろいろ見てみると正解率80%がちょうど良い目標っぽいので、いろいろ頑張ってみてRandom Forestで80.8%を達成しました。実装は自分で考えつつやったのですが、やった内容のほとんどは以下に示す参考記事をいろいろ見てなんとなく良さそうだな…と思った部分を真似しただけです。
参考記事
Titanic問題のFeature engineering
- ahmedbesbes.com – How to score 0.8134 in Titanic Kaggle Challenge
- Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感 - mirandora.commirandora.com
- Basic Feature Engineering with the Titanic Data « triangleinequality
- Kaggleチュートリアル:タイタニックタスクに参加する | Apitore blog
RandomForestのチューニング
やったこと
- 名前からTitleを抽出(Mr.やMaster、Missなど)して、年齢の欠損値をSex、Pclass、Titleが同じ人の年齢の中央値で埋める
- 苗字から家族関係を推定し、自分の家族の生存率を考慮する。全員生存、半分以上生存、全員死亡、その他でカテゴリ分け
- 家族の人数が0人、1人から3人、4人以上でカテゴリ分け
- RandomForestのパラメータチューニングを行い、予測