印象的な能力と能力を実証した後 グーグル人工知能、地球上で最高の囲碁プレーヤーの頂点に立つことも、スタークラフトIIのプレイを学ぶこともできることを確かに覚えているでしょう。確かに、数か月後にはその計り知れない品質を発揮します。 ディープマインド 今私ができるように新しいステップの プロパティによってオブジェクトを識別します それらをつかむための最良の方法を決定するために
このために私によって形成された開発者と研究者のチームGoogleとカリフォルニア大学のエンジニアは、アルゴリズムの練習を開始することを決定しました。これにより、彼は幼い頃に人間が行うように自分自身を教育します。つまり、彼らは彼に引っ張ったり、押したり、壊したり、一般に、によって指揮された仮想エントロホ内で世界を実験させます。 DeepMind。
この作業の目的は、DeepMindを可能にすることです。 それらと相互作用するために物理オブジェクトのプロパティを学ぶ。 このタイプの教育は 'の名前で知られています深層強化学習'そして、このプラットフォームは、特定の指示なしにリアルタイムでタスクを解決できるようになります。これは、特定のオブジェクトが何でできているか、またはその使用方法がわからない場合、つまり本能的に特定のオブジェクトと対話する方法と非常によく似ています。 。
深層強化学習技術の使用のおかげで、DeepMindはあらゆるタイプのオブジェクトと対話できるようになります。
これを達成するために、研究者は作成しました XNUMXつの異なる環境 DeepMindが実験して間違いから学ぶことができるように、このために、最初に、同じサイズで重量が異なるXNUMXつのブロックを備えたシステムに直面し、プラットフォームがそれを学習した場所で最も重いものを特定しようとしました。それを推測する唯一の方法は、すべてのオブジェクトと相互作用することでした。
次に、DeepMindがそれぞれのブロックの数を計算するために、プラットフォームをさまざまな高さのタワーに配置しました。 成功した場合は一連の報酬が提供され、失敗が発生した場合はプラットフォームに否定的なフィードバックが与えられました。 これらのテストで、プラットフォームは 創意工夫に基づいて行動する新しい方法を発見する。 このおかげで、DeepMindは、明確な指示がない場合や直接不足している場合に解決策を見つけることができるようになりました。
詳細情報: arXivの