機械学習

データ分析

反事実モデルを生成する機械学習の解釈性ライブラリDiCEを試す

最近は機械学習の解釈性がよく聞かれますが、そんな中でMicrosoft Researchがとても面白いかつ今後有用になりそうなライブラリを発表していました。本記事ではkaggleにあるローン審査のデータセットとDiCEを使ってローン審査の反事実を生成してみます。なお、現時点ではDiCEは実装がまだしっかりと整備されていないため、今後実装が進んだ際は現時点とは使い方等が変わるかもしれませんのでご了承下さい。
データ分析

機械学習の自動化ライブラリ「PyCaret」を使ってみた

こんにちわ!都内のベンチャー企業でデータ分析屋しているやじろべえです!今回はPyCaretという機械学習の自動化ライブラリを使ってみたのでその忘備録になります。PyCaretはイメージ的にはDataRobotのような感じですね。詳細は公式ホームページを見てみてください。
データ分析

機械学習の解釈性技術の一つであるSHAPを試してみた

こんちにわ!都内のスタートアップでデータ分析しているやじろべえです。最近は機械学習の解釈性がよく話題になっていますが、今回はこの機械学習の解釈性について一つのソリューションを与えてくれるSHAPについて試してみました(もうN番煎じなんだよって感じですが・・・)。
データ分析

勾配ブースティングで顧客離反予測

こんにちわ!やじろべえです!最近、職場の蓄積したデータを使って顧客が離反するかしないかについて予測したいとビジネスサイドの方がフラグを立てている(?)らしいので、予習がてらにオープンデータセットを用いて機械学習的なアプローチで分析してみました。
データ分析

scikit-learn0.22.0から実装されたスタッキングクラスを試してみた

こんにちわ。見習いデータ分析屋のやじろべえです。データ分析コンペで上位を取ろうとしたらマストテクニックになるスタッキング(stacking)ですが、これまではお手軽に使えるクラスが無かったので、パイプラインを作るのが非常に面倒でした。そんな中、scikit-learnのバージョン0.22.0からスタッキングクラスが実装されたと聞いて、早速どれだけお手軽か試してみました。
データ分析

kaggleにチャレンジ!ケプラー衛星のデータを使って第二の地球を機械学習で探してみた

今回はkeplerのデータを使って第二の地球を機械学習を使って探してみたいと思います。kepler衛星とは2009年にNASAが打上げた大型の人工衛星で、地球型の太陽系外惑星を見つけることをメインミッションとしていました。kepler衛星は打上げられてから9年間で50万個以上の星を観測し、2600個以上の惑星を発見しています。残念ながら2018年10月に燃料が尽きたため運用を終了したとNASAは発表しました。
データ分析

kaggleにチャレンジ!NASAのデータを使って太陽の日射量を機械学習で予測してみた

kaggleで宇宙に関係する面白そうなコンペをあるイベントを通して知ったので、早速チャレンジしてみました。今回挑戦するコンペは太陽の日射量を地球の気象データから予測する内容になります。機械学習を使ってどこまで精度が出るか計算してみました。
データ分析

ボストン市の住宅価格をScikit-learnの線形回帰で予測

scikit-learnのサンプルデータを使ってボストン市の住宅価格を予測してみました。今回は、住居の平均部屋数と住宅価格の関係を使った単回帰分析でどこまで精度が出せるか検証してみます。
タイトルとURLをコピーしました