Spielen mit dem Zauberwürfel und seine Geschichte

Wir haben zwei neuronale Netze darauf trainiert, den rubiks cube timer mit einer menschenähnlichen Roboterhand zu lösen. Die neuronalen Netze werden vollständig in Simulation trainiert, wobei derselbe Reinforcement-Learning-Code wie OpenAI Five verwendet wird, gepaart mit einer neuen Technik namens Automatic Domain Randomization (ADR). Das System kann mit Situationen umgehen, die es während des Trainings nie gesehen hat, wie z. B. von einer ausgestopften Giraffe gestoßen zu werden. Dies zeigt, dass Reinforcement Learning nicht nur ein Werkzeug für virtuelle Aufgaben ist, sondern auch Probleme der physischen Welt lösen kann, die beispiellose Geschicklichkeit erfordern. So ist der cube timer.

Menschenhände lassen uns die unterschiedlichsten Aufgaben lösen. In den letzten 60 Jahren der Robotik erforderten schwierige Aufgaben, die Menschen mit ihren starren Händen erledigen, die Entwicklung eines maßgeschneiderten Roboters für jede Aufgabe. Als Alternative haben Menschen viele Jahrzehnte damit verbracht, Allzweck-Roboterhardware zu verwenden, jedoch mit begrenztem Erfolg aufgrund ihrer hohen Freiheitsgrade. Insbesondere die Hardware, die wir hier verwenden, ist nicht neu – die Roboterhand, die wir verwenden, gibt es schon seit 15 Jahren – aber der Softwareansatz ist es.

Ab Mai 2017

Seit Mai 2017 versuchen wir, einer menschenähnlichen Roboterhand beizubringen, den Zauberwürfel zu lösen. Wir haben uns dieses Ziel gesetzt, weil wir glauben, dass das erfolgreiche Training einer solchen Roboterhand für komplexe Manipulationsaufgaben die Grundlage für Allzweckroboter bildet. Wir haben den rubiks cube timer im Juli 2017 in der Simulation gelöst. Aber ab Juli 2018 konnten wir nur einen Block am Roboter manipulieren. Jetzt haben wir unser ursprüngliches Ziel erreicht.

Die Lösung und unser Vorgehen

Eine vollständige Lösung des Zauberwürfels. Dieses Video wird in Echtzeit abgespielt und wurde in keiner Weise bearbeitet.

Das Lösen eines Zauberwürfels mit einer Hand ist selbst für Menschen eine herausfordernde Aufgabe, und Kinder brauchen mehrere Jahre, um die erforderliche Geschicklichkeit zu erlangen, um es zu meistern. Unser Roboter hat seine Technik jedoch noch nicht perfektioniert, da er den Zauberwürfel in 60 % der Fälle löst (und nur 20 % der Zeit für ein maximal schwieriges Scramble).

Wir trainieren neuronale Netze, um den Zauberwürfel in der Simulation zu lösen, indem wir Reinforcement Learning und Kociembas Algorithmus zur Auswahl der Lösungsschritte verwenden.[1]

Wir konzentrieren uns auf die Probleme, die Maschinen derzeit nur schwer bewältigen können: Wahrnehmung und geschickte Manipulation. Wir trainieren daher unsere neuronalen Netze, um die erforderlichen Flächenrotationen und Würfeldrehungen zu erreichen, wie sie vom Kociemba-Algorithmus generiert werden.

Die Domänen-Randomisierung ermöglicht Netzwerken, die ausschließlich in der Simulation trainiert wurden, den Transfer zu einem echten Roboter.

Die Domain-Randomisierung setzt das neuronale Netzwerk vielen verschiedenen Varianten desselben Problems aus und löst in diesem Fall einen Zauberwürfel.

Die größte Herausforderung, der wir gegenüberstanden, bestand darin, Simulationsumgebungen zu schaffen, die vielfältig genug sind, um die Physik der realen Welt einzufangen. Faktoren wie Reibung, Elastizität und Dynamik sind für so komplexe Objekte wie Rubik’s Cubes oder Roboterhände unglaublich schwer zu messen und zu modellieren, und wir haben festgestellt, dass Domänen-Randomisierung allein nicht ausreicht.

Um dies zu überwinden, haben wir eine neue Methode namens Automatic Domain Randomization (ADR) entwickelt, die in der Simulation endlos immer schwierigere Umgebungen erzeugt.

Spielen mit dem Zauberwürfel und seine Geschichte

Published by Earl Miles on June 7, 2022June 7, 2022

Ab Mai 2017

Die Lösung und unser Vorgehen