Microsoftは、人間のようにビジュアルに画像を認識できるよう、コンピュータに教える。 2015年11月28日
By Pedro Hernandez、eWEEK
Microsoftの研究者は、人間のように、ビジュアルな情報を処理する、システムを開発しており、写真のコンテンツに関する、質問に答えることができるようにする。
Microsoftの、世界を理解する、コンピューティング・システムを構築するための、Microsoftの探究は、同社のProject Oxfordマシン学習技術で終わることはない。
ワシントン州Redmondに本社を置く、Microsoftの研究者は、自分が見るものから、情報を引き出す、人間に似た、システムを開発している。
Microsoftによると、人は、写真に写った何かに関して聞かれると、質問に答えるために、多くの言葉で、詳細に説明するという。
Microsoftの研究者のチームは、Carnegie Mellon大学の同僚と共に、画像を分析し、同じ質問に答えるために、コンピュータ・ビジョン、深層学習、および、人間の自然言語の理解を利用したシステムを作成した。
Microsoftの研究者は、写真に関する質問に答えるために、複数段階の推理を適用する、モデルを作成したという。
この技術は、Carnegie Mellon大学の研究者、Zichao Yang氏やAlex Smola氏と共に、Microsoft研究所の深層学習技術センターの、Li Deng氏、Xiaodong He氏、 および、Jianfeng Gao氏により、進められている。
Deng氏と彼のグループは、この問題を解くために、ビジュアルな合図や推論に焦点を合わせ、注意を払うために、この能力を、システムに組み込んでいる。
これは、数年前には可能でなかった、人間の振舞いに近づく、進歩であるという。
Microsoftは、この研究が、人間のニーズに期待し、リアルタイムな推奨を提供できる、システムへ導くだろうと、思い描いている。
Microsoftによると、ビジュアルな情報に基づいて、質問に答えることのできる、システムは、人工知能(AI)ツールを開発する上で、極めて重要であるという。
例えば、この人工知能(AI)ツールは、より安全に、自転車に乗れるようにする。
Microsoftは、この人工知能(AI)ツールのシステムに、自転車に乗る人に対する、警告システムといった、あらゆる種類のアプリケーションを実装できるようにする。
自転車に搭載したカメラは、自転車に乗る人の回りの環境や風景を、自動的に撮影する。
この自転車に搭載したカメラが撮った映像を分析する、画像分析システムは、Microsoftの技術をベースに構築されている。
Microsoftの研究者は、自転車に搭載したカメラが撮った映像の説明が、人により注釈付けされ、写真に意味を持たせることが、このポイントにたどりつくまでに、重要なステップであったという。
この画像分析システムは、人間のように、写真の画像を理解できるようにするために、コンピュータを訓練するのを支援する。
Microsoftは、アプリ開発者が、新たな世代の知的なアプリケーションを構築するのを助けるための方法として、マシン学習システムを当てにしている。
前月に、Microsoftは、Project Oxford Language Understanding Intelligent Service (LUIS)の公開β版を発表し、Microsoftの独自の仮想アシスタント、Cortanaに似た、人間が話す言葉を理解し、問合せを実行するような、アプリケーションを作成できるようにする。
Project Oxfordは、顔や感情の検出、話言葉、認識、および、コンピュータのビジョンを含む、マシン学習アプリケーション・プログラミング・インタフェース(API)である。