หลังจากแสดงให้เห็นถึงความสามารถและความสามารถที่น่าประทับใจแล้ว Google ปัญญาประดิษฐ์ในขณะที่คุณจะจำได้อย่างแน่นอนว่าสามารถอยู่ในระดับสูงสุดของผู้เล่น Go ที่ดีที่สุดในโลกหรือเรียนรู้ที่จะเล่น StarCraft II ซึ่งแน่นอนว่าหลังจากผ่านไปหลายเดือนยังแสดงให้เห็นถึงคุณสมบัติอันยิ่งใหญ่ของมันประเด็นก็มาที่ผลงานของ Deepmind ของก้าวใหม่ที่ทำให้ตอนนี้ฉันทำได้ ระบุวัตถุตามคุณสมบัติ เพื่อตัดสินใจเลือกวิธีที่ดีที่สุดในการคว้ามันมา
สำหรับสิ่งนี้ทีมนักพัฒนาและนักวิจัยที่ก่อตั้งโดย iวิศวกรจาก Google และมหาวิทยาลัยแคลิฟอร์เนียได้ตัดสินใจที่จะเริ่มฝึกฝนด้วยอัลกอริทึมเพื่อให้เขาได้เรียนรู้ด้วยตัวเองเช่นเดียวกับที่มนุษย์จะทำในวัยเด็กแรกสุดนั่นคือพวกเขาจะปล่อยให้เขาดึงผลักทำลายและโดยทั่วไปแล้วทดลองกับโลกภายในเอนโทรโจเสมือนที่ได้รับคำสั่งจาก DeepMind
วัตถุประสงค์ของงานนี้คือการทำให้ DeepMind มีความสามารถ เรียนรู้คุณสมบัติของวัตถุทางกายภาพเพื่อโต้ตอบกับพวกมัน. การเรียนการสอนประเภทนี้รู้จักกันในนามของการเรียนรู้แบบเสริมแรงอย่างลึกซึ้ง'และจะช่วยให้แพลตฟอร์มนี้อนุญาตให้แก้งานได้แบบเรียลไทม์โดยไม่มีคำสั่งเฉพาะซึ่งคล้ายกับวิธีการโต้ตอบกับวัตถุบางอย่างเมื่อเราไม่รู้ว่ามันทำมาจากอะไรหรือใช้อย่างไรนั่นคือโดยสัญชาตญาณ .
ต้องขอบคุณการใช้เทคนิคการเรียนรู้การเสริมแรงแบบลึก DeepMind จะสามารถโต้ตอบกับวัตถุประเภทใดก็ได้
เพื่อให้บรรลุสิ่งนี้นักวิจัยได้สร้างขึ้น สองสภาพแวดล้อมที่แตกต่างกัน เพื่อให้ DeepMind สามารถทดลองและเรียนรู้จากความผิดพลาดได้ด้วยเหตุนี้ในตอนแรกระบบต้องเผชิญกับระบบที่มีขนาดเท่ากัน XNUMX บล็อก แต่มีน้ำหนักต่างกันโดยพยายามหาแพลตฟอร์มเพื่อระบุว่าสิ่งใดที่หนักที่สุดซึ่งได้เรียนรู้ว่า วิธีเดียวที่จะเดาได้ว่ามันโต้ตอบกับวัตถุทั้งหมด
ประการที่สองแพลตฟอร์มถูกวางเทียบกับหอคอยที่มีความสูงต่างกันสำหรับ DeepMind เพื่อคำนวณจำนวนบล็อกในแต่ละบล็อก ในกรณีที่ประสบความสำเร็จจะมีการเสนอรางวัลหลายชุดในขณะที่หากเกิดความล้มเหลวจะมีการให้ข้อเสนอแนะเชิงลบแก่แพลตฟอร์ม ด้วยการทดสอบเหล่านี้แพลตฟอร์มได้เรียนรู้ ค้นพบวิธีการแสดงใหม่ ๆ โดยอาศัยความเฉลียวฉลาด. ต้องขอบคุณ DeepMind ในขณะนี้ที่สามารถค้นหาวิธีแก้ไขได้เมื่อไม่มีคำแนะนำที่ชัดเจนหรือขาดโดยตรง
ข้อมูลเพิ่มเติม: arXiv