superi

働かないために全力で働くスタイル

テクノロジー

【FX】為替レートの5分足のヒストリカルデータを入手する

以前、システムトレードのアルゴリズムを構築したいとお話しました。 www.superi.jp が、そのためにはまず為替レートの過去データを入手しなければなりません。その入手先について検討したいと思います。

ブロックチェーンと向き合う

2019年はブロックチェーン元年として、技術・ビジネス面ともにキャッチアップしていこうかと思っています。 ブロックチェーンは、僕の中ではデータサイエンス以来の価値を見いだせる領域だとワクワクしております。

漏洩

もっと思ったことを発信した方がいいなと思って、帰りの電車の中でブログ書いている。 プロジェクトも佳境。今月で携わっているお客さんともサヨナラだから引き継ぎ用に資料をまとめてたりしている。

pyenvでAnacondaをインストールしてGoogle Cloud API のクライアント ライブラリをインストールするときは--ignore-installedをつける

起こったこと PythonでGCE上で開発していると発生した。 google-cloud-sdkはインストール済み。Google BigQuery API の Cloud クライアント ライブラリをインストールして利用していると、ライブラリーが読み込めなかった。 from google.cloud import bigque…

Word Cloudでニュースのキーワードを可視化

業務でWord Cloudを使う機会があったため、使い方を確認しました。

石原さとみがどのポケモンに似てるか深層学習してみる

よっ、でぃーぷらーにんぐー、したかったのが今回の趣旨です、、

Facebook謹製の時系列予測ライブラリ『Prophet』で株価予測する

今年2月にFacebookからリリースされた時系列予測ライブラリ『Prophet』は、非常に手軽に時系列予測が可能です。

Attention and Engagement-Awareness in the Wild: A Large-Scale Study with Adaptive Notifications

表題はIEEE PerCom 2017に掲載されたYahoo Japanのデータサイエンティストのペーパーです。 日経産業新聞に載ってたのを見て、IEEEに掲載されてたのを知りました。 自分もトップジャーナルとマスメディアに載りたいなーって思いました(´・Д・)」

表記揺れの対策

マーケティングではアンケートによって市場調査を行うことがあるかと思いますが、このときに悩まされるのがユーザーの自由回答欄での表記揺れではないでしょうか。

XGBoostのハイパーパラメータをチューニングする

前回、XGBoostで予測モデルを作成しました。 www.superi.jp 精度を上げるためにはパラメーターチューニングが必要です。しかし、こちらのアルゴリズムは設定すべきパラメータが多く、手動で探索すると手間がかかります。 そこでscikit-kearnのgrid_searchを…

XGBoostで予測モデル作成

前回まででXGBoostのインストールが終わりました。 www.superi.jp ここからは実際にXGBoostによる予測モデルを作成していきます。

MacにXGBoostをインストールして予測モデルを作成する - インストール編

XGBoostで予測モデルを作成していきます。 XGBoostとは 近年KaggleやKDDなどの機械学習界隈で予測精度がよいと評判のアルゴリズム、Gradient Boosting(勾配ブースティング、GBDTと呼ぶことが多い)をc++で実装したもので、計算が速いことが知られています。 G…

森岡毅の『確率思考の戦略論』第2章を読んでみた

尊敬して止むに止まないナニワの軍師こと森岡毅氏の『確率思考の戦略論』を読んでいて、ヒジョーに良かったのでざっくりまとめておこうかと。 確率思考の戦略論 USJでも実証された数学マーケティングの力 作者: 森岡毅,今西聖貴 出版社/メーカー: KADOKAWA/…

Python scikit-learnで決定木での分類結果をROC曲線とAUCで評価する

前回モデルの性能検証に関して、クロスバリデーションについて書きました。 www.superi.jp

Python3にアップデートしたらmatplotlibのpyplotがインポートできない

Anacondaを使っていますが、Python3にアップデートしたらmatplotlibのpyplotがインポートできなくなりました。ちなみにmatplotlibの他のクラスは読み込めます。

Python scikit-learnで決定木モデルの性能検証

前回決定木で予測モデルを作成しましたが、機械学習におけるモデルの性能検証について書きたいと思います。 www.superi.jp

Python scikit-learnで決定木による予測モデル作成

前回の記事で決定木分析を行い、graphvizによる可視化をしました。 www.superi.jp

AnacondaをアップデートしてPython2.7から3.5にバージョンアップする

以前にインストールしたAnacondaのPythonのver.が2.7だったのですが、さすがに3系にバージョンアップしようかなと思っていろいろ調べたのでまとめますね。 AnacondaでPythonを使っている場合のバージョンアップはAnacondaをバージョンアップさせることで可能…

scikit-learnの決定木をexport_graphvizで可視化する

データマイニングで定番の決定木分析をやってみたいと思います。 決定木の説明に関しては他に譲るとして、ここではpythonの機械学習ライブラリである、scikit-learnを利用して決定木分析を行い、graphvizという可視化ライブラリでグラフを描画します。 その…

hiveでyyyyMMddをyyyy-MM-ddに変換する

hiveでは年月日がyyyyMMddの形式、たとえば20160603となっているとき、castしてもdate型として扱えないので比較や条件句がそのままでは使えません。

PythonでIP prefix(サブネットマスク)のIPを計算する

前回、前々回でAWS、AzureのIPアドレスの範囲を取得しました。 www.superi.jp www.superi.jp

PythonでAzureのIPアドレスの範囲を取得し、CSVで出力する

前回に引き続き、 Microsoft Azureで公開されているxml形式のIPアドレスの範囲を取得し、CSVファイルとして出力します。 www.superi.jp

PythonでAWSのIPアドレスの範囲を取得し、CSVで出力する

目的については別途書きますが、AWSで公開されているJSON形式のIPアドレスの範囲を取得し、CSVファイルとして出力します。 やるべきこととしては、 (1) AWSのWebサイト(※1)をスクレイピングし、データを取得。 (2)取得したJSON形式のデータをcsv形式で書き込…

TreasureDataのログを削除する

デジタルマーケティングのデータサイエンティストであればTreasureDataを利用されている方も多いのではないでしょうか。通常のDB感覚で大量のログを取り込み、分析できて便利ですよね。 と思いきや、あれ、取り込んだデータの削除ができない・・・

SQLでyyyyMMdd hh:mm形式からdate型に変換する

Treasure DataのPresto、Hiveを使っていたところ、datetime型からdate型に変換しようとcastしたところ、エラーになってしまいました。

FilezillaでSFTP接続した時のタイムアウトエラーを回避する

MacからSFTPサーバーに接続する際にFilezillaを使っていますが、サーバー側のファイル容量が大きくなりすぎてタイムアウトエラーが発生するようになっていました。 Filezillaを利用してSFTPサーバーに接続した際のタイムアウトエラーを回避する方法をまとめ…

AzureのMachine Learningを使う

前回の記事でAzureのアカウント作成について書きました。 www.superi.jp 今回はAzureのMachine Learningを使っていきます。

Microsoft Azureを使う

業務で機械学習プラットフォームを使いたいなと思い、Azureを試すことにしました。 Azureでは1ヶ月以内2万500円までの無料枠が提供されています。初回であれば料金がかからないので、ぜひ使っておきたいところです。 以下ではAzureのアカウント開設までをま…

Numpyで配列の結合・分割

作成した配列の結合や分割もNumpyでよく利用します。

matplotlibで2軸グラフを描画する

縦軸が左右にある 2 軸グラフを作成するにはsubplotを定義したaxisともう一方の軸をtwinします。 Yahoo!より取得した電通の2015年9月の株価終値と出来高の加工済みデータをプロットしてみましょう。 import numpy as npimport pandas as pdimport matplotlib…