datascience データサイエンス | 4番は司令塔

データサイエンス

データサイエンス

jupyter notebookで自作したクラスを自動でimport

jupyter notebookで自作したクラス(モジュール)をインポートできない Pythonは自分で作成したクラスを簡単にインポートできます。 from ファイル名 import クラス名 ですが、jupyter n...
データサイエンス

学習曲線(Learning Curve)で過学習、学習不足を検証

機械学習では学習データ数によって学習不足だったり過学習を起こしていないか?という心配が出てきます。それを検証するのがLearning Curveです。Learning Curveはサンプル数を変えながら学習データと検証データの正解率の推移を計算し、それらの比較からモデルが適切かどうかを検証します。
データサイエンス

validation_curveでGridSearchCVとRandomForestClassifierのパラメータチューニング

前回はGridSearchCVを使って、ランダムフォレスト(RandomForestClassifier)のパラメータの最適解を求めました。 「GridSearchCVを使えば、いつでも最適解を出せるから楽だよね」 と思ってま...
データサイエンス

KaggleのTitanic課題をGridSearchCV+RandomForestClassifierで挑戦

前回はRandomForestClassifierでTitanic課題に挑戦しましたが、その前に行ったDecisionTreeClassifierよりも悪い結果となってしまいました。通常はRandomForestClassifierのほう...
データサイエンス

機械学習初心者がKaggleのTitanic課題でモデルを作る

機械学習の挑戦者が集まるKaggle 機械学習初心者だったら、「Pythonでモデリングの勉強はして機械学習を実際にやってみたいけど、データがない」と悩んだことはありませんか? そんなあなたにおすすめしたいのがKaggleで...
データサイエンス

RandomForestClassifierでKaggle Titanicに挑戦

前回はKaggleのTitanicの課題に決定木(DecisionTreeClassifier)で挑戦して、76.5%の精度を出しました。 今度はランダムフォレスト(RandomForestClassifier)を使ってみます。 ...
データサイエンス

matplotlib.pyplotの’str’ object is not callableエラー

謎のエラー 'str' object is not callable Pythonでグラフを作成するときによく使うmatplotlib.pyplotですが、ある時、何気なくいつもどおりラベルを表示させようとしたら、'str' obj...
データサイエンス

Jupyter Notebookがショートカットアイコンから起動しない

Jupyter Notebookが起動しないPythonでデータ分析をしている方はJupyter Notebookを1度は目にしたことがあると思います。詳しい使い方などは省略しますのでGoogleにて調べてみてください。 今回はWindo...
データサイエンス

mySQLやSQLserverでDATETIMEの最小値・最大値の違い

DATETIME型SQLとひとことで言ってもOracleやPostgreSQL、DB2、mySQL、SQLserverといろいろあるのですが、データの移し変えをしていてどうもうまくいかないと思っていたらDATETIME型の最大値と最小値に違...
データサイエンス

【書評】これからのデータサイエンティストに必要なのは分析力ではなく実行力!

分析はビジネスに貢献できてはじめて結果となる 日経情報ストラテジーが選ぶ第1回データサイエンティスト・オブ・ザ・イヤーを受賞した河本薫氏が考える分析屋にとって本当に必要な事がまとめられている。 昨今、「ビッグデータ」や「...
タイトルとURLをコピーしました