rubik's cube timer

Spielen mit dem Zauberwürfel und seine Geschichte

Wir haben zwei neuronale Netze darauf trainiert, den rubiks cube timer mit einer menschenähnlichen Roboterhand zu lösen. Die neuronalen Netze werden vollständig in Simulation trainiert, wobei derselbe Reinforcement-Learning-Code wie OpenAI Five verwendet wird, gepaart mit einer neuen Technik namens Automatic Domain Randomization (ADR). Das System kann mit Situationen umgehen, die es während des Trainings nie gesehen hat, wie z. B. von einer ausgestopften Giraffe gestoßen zu werden. Dies zeigt, dass Reinforcement Learning nicht nur ein Werkzeug für virtuelle Aufgaben ist, sondern auch Probleme der physischen Welt lösen kann, die beispiellose Geschicklichkeit erfordern. So ist der cube timer.

(more…)