データサイエンス

データサイエンス

機械学習の解釈性技術の一つであるSHAPを試してみた

こんちにわ!都内のスタートアップでデータ分析しているやじろべえです。最近は機械学習の解釈性がよく話題になっていますが、今回はこの機械学習の解釈性について一つのソリューションを与えてくれるSHAPについて試してみました(もうN番煎じなんだよって感じですが・・・)。
データサイエンス

統計的因果推論(バイアスの影響を測る回帰分析)

こんにちわ!やじろべえです。今回は因果推論シリーズの第三弾として、回帰分析を使ってバイアスの影響を測定してみます。これまでと同様に教科書は下記の書籍を参考にしています。因果推論をビジネス利用する観点で書かれており、現場でデータ分析する人は読んでおいて損は無いと思います。
データサイエンス

統計的因果推論(対応が無い2標本t検定)バイアスのあるデータの効果検証

こんにちわ!やじろべえです。今回は因果推論シリーズの第二弾として、バイアスのあるデータを疑似的に作り、その効果検証をしてみました。今回も教科書は効果検証入門を参考にしています。内容の多くが因果推論をビジネス利用する観点で書かれており、現場でデータ分析する人は読んでおいて損は無いと思います。
データサイエンス

統計的因果推論(対応が無い2標本t検定)RCTによるメールマーケティングの効果検証

こんにちわ!やじろべえです。今回は統計的因果推論ということで、おそらく一番有名であろうRCT(Randomized Controlled Trial)による効果検証についてPythonで分析してみました。因果推論を学習するにあたり、何か参考書籍は無いか探していたところ良さげな一冊を発見しました。データ分析界隈で有名な方々もこちらの書籍を一押ししていたので、早速私も購入してみました。
データサイエンス

勾配ブースティングで顧客離反予測

こんにちわ!やじろべえです!最近、職場の蓄積したデータを使って顧客が離反するかしないかについて予測したいとビジネスサイドの方がフラグを立てている(?)らしいので、予習がてらにオープンデータセットを用いて機械学習的なアプローチで分析してみました。
データサイエンス

scikit-learn0.22.0から実装されたスタッキングクラスを試してみた

こんにちわ。見習いデータ分析屋のやじろべえです。データ分析コンペで上位を取ろうとしたらマストテクニックになるスタッキング(stacking)ですが、これまではお手軽に使えるクラスが無かったので、パイプラインを作るのが非常に面倒でした。そんな中、scikit-learnのバージョン0.22.0からスタッキングクラスが実装されたと聞いて、早速どれだけお手軽か試してみました。
データサイエンス

kaggleにチャレンジ!ケプラー衛星のデータを使って第二の地球を機械学習で探してみた

今回はkeplerのデータを使って第二の地球を機械学習を使って探してみたいと思います。kepler衛星とは2009年にNASAが打上げた大型の人工衛星で、地球型の太陽系外惑星を見つけることをメインミッションとしていました。kepler衛星は打上げられてから9年間で50万個以上の星を観測し、2600個以上の惑星を発見しています。残念ながら2018年10月に燃料が尽きたため運用を終了したとNASAは発表しました。
データサイエンス

kaggleにチャレンジ!NASAのデータを使って太陽の日射量を機械学習で予測してみた

kaggleで宇宙に関係する面白そうなコンペをあるイベントを通して知ったので、早速チャレンジしてみました。今回挑戦するコンペは太陽の日射量を地球の気象データから予測する内容になります。機械学習を使ってどこまで精度が出るか計算してみました。
データサイエンス

PyTorchを用いてディープラーニングによるワイン分類をしてみた

PyTorchを用いてニューラルネットワークによるワイン分類を行いました。また、層を深くしたとき(ディープラーニング)の精度向上検証も行いました。今回用いたデータセットはscikit-learnに含まれているデータセットを使用しています。
データサイエンス

ボストン市の住宅価格をScikit-learnの重回帰分析で予測

以前の記事では単回帰分析でボストンの住宅価格を予測しました。今回は重回帰分析で予測してみたいと思います。単回帰分析では説明変数が一つのみでしたが、重回帰分析では説明変数が複数扱うことができます。
タイトルとURLをコピーしました