データサイエンスGoogle Colabで長時間実行する方法(Hyperdash) 機械学習をクラウドで実行できるGoogle Colab 機械学習を行うのに、メモリやCPU/GPUを増強が必須ですが、Googleがブラウザ上で動作するJupyter notebook環境Google Colabを無料でリリースした... 2020.12.06データサイエンス
アナリティクススプレッドシートとGoogle Apps ScriptでBigQueryを監視 分析データも監視が必要 データ分析用のテーブルやGoogle Analytics、FirebaseなどからBigQueryにインポートされたテーブルが更新されていなくて、分析結果が狂ってしまったって事はありませんか?特にGoog... 2020.06.19アナリティクスデータサイエンス
データサイエンスjupyter notebookでUntitledファイルを自動生成しない 以前の記事で、jupyter notebookで自作したクラスを自動でimportする方法を紹介しました。この機能はjupyter notebook上でスクリプトを保存するたびにpythonファイルやhtmlファイルを自動生成&更新し... 2020.06.09データサイエンス
データサイエンス学習曲線(Learning Curve)で過学習、学習不足を検証 機械学習では学習データ数によって学習不足だったり過学習を起こしていないか?という心配が出てきます。それを検証するのがLearning Curveです。Learning Curveはサンプル数を変えながら学習データと検証データの正解率の推移を計算し、それらの比較からモデルが適切かどうかを検証します。 2020.05.12データサイエンス
データサイエンスvalidation_curveでGridSearchCVとRandomForestClassifierのパラメータチューニング 前回はGridSearchCVを使って、ランダムフォレスト(RandomForestClassifier)のパラメータの最適解を求めました。 「GridSearchCVを使えば、いつでも最適解を出せるから楽だよね」 と思ってました... 2020.05.08データサイエンス
データサイエンスmatplotlib.pyplotの'str' object is not callableエラー 謎のエラー 'str' object is not callable Pythonでグラフを作成するときによく使うmatplotlib.pyplotですが、ある時、何気なくいつもどおりラベルを表示させようとしたら、'str' obje... 2020.05.05データサイエンス
データサイエンスKaggleのTitanic課題をGridSearchCV+RandomForestClassifierで挑戦 前回はRandomForestClassifierでTitanic課題に挑戦しましたが、その前に行ったDecisionTreeClassifierよりも悪い結果となってしまいました。通常はRandomForestClassifierのほう... 2020.05.03データサイエンス
データサイエンスRandomForestClassifierでKaggle Titanicに挑戦 前回はKaggleのTitanicの課題に決定木(DecisionTreeClassifier)で挑戦して、76.5%の精度を出しました。 今度はランダムフォレスト(RandomForestClassifier)を使ってみます。 ... 2020.05.01データサイエンス
データサイエンスjupyter notebookで自作したクラスを自動でimport jupyter notebookで自作したクラス(モジュール)をインポートできない Pythonは自分で作成したクラスを簡単にインポートできます。 from ファイル名 import クラス名 ですが、jupyter note... 2020.04.28データサイエンス
データサイエンス機械学習初心者がKaggleのTitanic課題でモデルを作る 機械学習の挑戦者が集まるKaggle 機械学習初心者だったら、「Pythonでモデリングの勉強はして機械学習を実際にやってみたいけど、データがない」と悩んだことはありませんか? そんなあなたにおすすめしたいのがKaggleです。... 2020.04.24データサイエンス