機械学習を学び始めると、ボストンの住宅価格を使ったモデルによく出くわします。
ボストンの住宅の売買価格と、13個の不動産鑑定評価でいうところの価格形成要因(機械学習では特徴量といいます)の関係を線形回帰で表すものです。
やり方はごく簡単で、
まずモデルを作る準備で
Pandas, NumPy, scikit-learn, SciPyなど必要なライブラリーや使用するデータセット を準備します。
モデルの構築はいたって簡単。ここではランダムフォレスト回帰を使いました。
次にテストデータを使って、予測した価格と実際の価格がどれほど一致しているかを検証します。
なんとなくですが、だいたい一致しているようにも見えます。
見た目じゃよくわからないので、精度を数字で確認。
r2つまり決定係数は0.92となかなか立派なもの。
誤差は平均で1000ドル程度に収まっています。
こんなに良い結果が出るのもビックリです。念のため特徴量の影響度を調べてみます。
13の特徴量の重要度を示したもので、合計が1になります。このなかで
INDUS(町ごとの非小売業の土地面積の割合)
MEDV(所有者が居住する住宅の価格の中央値を1000ドル単位で表したもの)
の2つで67%も占めています。なんとなくRM(部屋数)なんかがもっと重視されてもいいような気がします。
Comments