読者です 読者をやめる 読者になる 読者になる

FutureInsight.info

AI、ビッグデータ、ライフサイエンス、テクノロジービッグプレイヤーの動向、これからの働き方などの「未来」に注目して考察するブログです。

Labellioのリリースと画像認識がどうしてDeep Learningで重要視されるのか

この前のエントリーで紹介した僕も参加している機械学習系スタートアップのAlpacaですが、本日ファーストプロダクト Labellio(ラベリオと読みます)をリリースしましのたで、お知らせします。

blog-jp.alpaca.ai

このプロダクトのおもしろいところは、かなり面倒(はまったら簡単に2,3日消えます)なDeep LearningライブラリのCaffeのセットアップも、 GPU付きPCの確保も全て不要で、いきなりDeep Learningの画像認識ができる部分で、たぶん皆様が画像認識に期待する多くのことをかなり うまく達成することができると思います。

もう一個おもしろいのが、作成した画像認識モデルを自分のプロダクトで利用する方法もオープンソースですべて公開しています。 GithubのLabellio_cliとLabellio_web_apiですね。つまり、Labellioは間違いなく今画像認識機能を試すなら一番簡単なソリューションです。

blog-jp.alpaca.ai

あと、このブログ読んでいる人はLabellioのバックエンドのこととか、そもそもDeep Learningをこんなに簡単に行える仕組みってどうなっているん だとかそういうテクニカルなことに興味あると思うので、それはおいおいCTOの@umitanukiにブログを書かせるとして、ちょっと画像認識の 一般的なことについて書いてみようと思います。

まず、どうしてDeep Learningといえば画像認識なのか。これはいろいろな理由があるとおもうんですが、近年で一番わかりやすく、これまでは 人間の方が明らかに上だったことを機械学習がそれ以上にうまくやりだした、というのが大きいかなとおもっています。俗に人間の物体認識率は95% というのがよく言われていますが、これを超えてしまったわけです。この物体認識率の競争はいまも非常に激しく続いていて、ILSVRCで 百度がさいきんやらかしたりしていました。

gendai.ismedia.jp

今年に入っても彼らの競争は続いており、年初にマイクロソフトがエラー率4.94%を記録すると、間もなくグーグルが4.8%を達成。ちなみに、人間がILSVRCと同様の画像認識テストを受けると、そのエラー率は5%と言われるので、ディープラーニングというAI技術は(少なくとも画像認識の分野では)人間を抜いたことになる。

画像認識と音声認識はそれぞれ人工知能系のInputの要の部分であり、この部分がうまくできれば、Inputから最適なOutputを導き出すDeep Learning技術の 最高のとっかかりになるわけです。つまり、フローでいうと多くの流れは本当に大雑把に書くと以下のようになるわけですね。

[動画認識/画像認識/音声認識] => [意味解析/言語解析] => [特定問題に対するソリューションレイヤー] => [出力]

で、この各用途ごとに最適なニューラルネットワークが異なっており、画像認識ではCNN/RNNの混合だとか、言語的表現を格納するLSTMとかが利用されています。

結局どのあたりの問題にどのニューラルネットワークを組み合わせるかというのが間違いなく今後の複雑な問題を解くときの鍵になるわけで、このあたりPFIがリリースした ChainerというDeep Learningのライブラリは非常によく考えられており、複雑な問題をとくための複雑さをそのままPythonで記述できるというとても上手い 設計になっています。

chainer.org

たぶん、上記のことは人工知能関連のプロジェクトに関わる人にとってはほぼ前提条件になっていて、例えばいまや日本最大の人工知能コミュニティになった 全脳アーキテクチャでも以下のような仮説が提唱されています。

脳はそれぞれよく定義された機能を持つ機械学習器が一定のやり方で 組み合わされる事で機能を実現しており,それを真似て人工的に構成された機械学習器を組み合わせる事で人間並みかそれ以上の能力を持つ汎用の知能機械を構築可能である.

このあたりの背景を理解すると、すごくすんなり今のDeep Learningにまつわる動きがわかると思うので、僕も非常に注目しています。