最近、全然ブログの更新ないですね、と友達に言われたので近況報告したいと思います。
さてさて、フィンテック X AIのスタートアップAlpacaにJoinしてそろそろ1年が経とうとしています。
以下のエントリーで書いたとおり、3月にオフィスとして丸の内のFinolabに6人部屋を借りたのですが、インターンも含めて人が増え、そろそろ部屋も満員になりそうです。
そもそも僕が入った時はAlpacaは画像認識をやっていましたが、その時点でどう考えても画像認識はGoogle、MS、IBMなどの巨人たちとのガチバトルになることが目に見えていました。当時、FintechやAIはまだ今ほどブームでもなく、どんなことになるかわからない状況でした。それでもフィンテック × AIに舵を切り、金融時系列に対する機械学習をコア技術にすることに決めてから基礎技術を確立するまで結局半年以上時間がかかりましたが、いよいよ技術が揃ってきてやりたいことができるようになってきたところです。
今日、ちょうどAlpacaのCTOの原田が以下のエントリーをAlpacaブログに掲載しました。これは非常におもしろいエントリーで一読推奨します。
http://blog-jp.alpaca.ai/entry/2016/05/20/094831blog-jp.alpaca.ai
金融時系列データに対して機械学習を適用する上でむずかしいことの一つは、リアルタイムのデータのデリバリーです。例えばデイリーの1日単位の時系列データに対して時間をかけて機械学習の手法を適用し、それのインデックスを作っておき、結果を見せるということならばそれほど難しくないわけです。しかし、トレーディングの意思決定は日に日に高度化・高速化しており、今は一分足のデータ(将来はTickデータ)に対する機械学習の適用が要求されます。
これは非常に難しい問題です。数千銘柄の金融時系列データに対して、リアルタイムにユーザーからの応答に応じて機械学習の手法を適用する方法論を確立するのは簡単なことではありません。DB・ビッグデータ関連のタレントが充実しているAlpacaも結局この環境を整えるのに半年くらいかかってしまいました。また、利用する機械学習の手法の選定もリアルタイム性が重要視されます。これもログなどから知見を取り出すことをメインとしているケースと比べると比較的珍しい要件なのではないかと思います。
上のエントリーの以下の一文が、この問題の難しさを物語っています。
データは刺し身のようなものです。できるだけ鮮度が高いうちに提供するのが一番。上記の通り、弊社では大量の投資アルゴリズムという生き物が大きな口を開けてマーケットから出てくる最新のデータを待っています。適切なデータを正しい宛先に最も早く届けることができなければ、アルゴリズムが生成できるデータの価値もどんどん低下してしまいます。
また、もう一つFintechのしかもトレーディング関連の機械学習をコア技術にしたスタートアップを行う上で難しいのは、リアルタイムのデータソースの確保です。この辺りの話は、ほとんど語られることがないのですが、実際にリアルタイムのデータをきちんと取得できる体制にするまではかなり大変です。Alpacaでも様々なデータソースを利用していますが、この部分をスタートアップが自力でWebサービスで利用可能な形(再配布・再利用の禁止があるとNG)で取得するのはこれまた大変です。
そんな諸々の問題を一つ一つ解決し、やっと金融機関の方々と具体的な話ができる機械学習の実行環境を整えることができるわけです。もしくは、いろいろな方にサービスを提供できるようになるわけです。まだまだ道は半ばですが、時間をかけて技術開発をしてやっとやりたいことができる環境になりつつあります。
そんなわけです、まだまだこれからですが、ぜひぜひ応援いただければと思います。Alpacaに興味あるインターン・エンジニアの方々いましたら、ぜひぜひご連絡ください。Finolabでコーヒーご馳走して、いろいろおもしろい話もできるかと思います。