在展示了令人印象深刻的能力之後, 谷歌人工智能,因為您肯定會記得甚至有能力成為地球上最好的圍棋選手或學習玩《星際爭霸XNUMX》的人,而在幾個月後肯定也展示了其《星際爭霸》的超凡品質時,關鍵在於 DeepMind 邁出了新的一步,現在我能夠 通過屬性識別對象 為了決定抓住它們的最佳方式。
為此,由i組成的開發人員和研究人員團隊來自Google和加利福尼亞大學的工程師決定開始練習該算法,以便他像人類幼年時一樣進行自我教育,也就是說,他們將讓他在虛擬世界中指揮,拉動,推動,打破世界並嘗試進行虛擬實驗DeepMind。
這項工作的目的是使DeepMind能夠 學習物理對象的屬性以便與它們進行交互。 這種教學方式被稱為“深度強化學習“並且將允許該平台無需特定的指令即可實時解決任務,這與我們在不知道對像是由什麼或如何使用該對象(即本能地)時與該對象進行交互的方式非常相似。 。
由於使用了深度強化學習技術,DeepMind將能夠與任何類型的對象進行交互。
為此,研究人員創建了 兩種不同的環境 為了使DeepMind能夠進行實驗並從錯誤中學習,為此,它首先面對具有五個相同大小但權重不同的塊的系統,以尋求使平台識別出哪個是最重的。猜測它是與所有對象交互的唯一方法。
其次,將平台放在不同高度的塔台上,以便DeepMind計算每個塔樓中有多少塊。 在成功的情況下,會提供一系列獎勵,而如果發生失敗,則會給平台帶來負面反饋。 通過這些測試,平台學會了 發現基於獨創性的新行為方式。 由於有了這個,DeepMind現在可以在沒有明確說明或直接缺少說明的情況下找到解決方案。
更多信息: 的arXiv