Um das System zu entwickeln, testeten Forscher der New York University und Meta Stretch, einen kommerziell erhältlichen Roboter von Hello Robot, der aus einer fahrbaren Einheit, einer großen Stange und einem einziehbaren Arm besteht, in insgesamt 10 Räumen, verteilt auf fünf Häuser.

Während er mit dem Roboter in einem Raum war, scannte ein Forscher seine Umgebung mit Record3D, einer iPhone-App, die das Lidar-System des Telefons nutzt, um 3D-Videos aufzunehmen und mit dem Roboter zu teilen.

Das OK-Robot-System führte dann ein Open-Source-KI-Objekterkennungsmodell auf dem Filmmaterial aus dem Video aus. In Kombination mit anderen Open-Source-Modellen half dies dem Roboter, Objekte in diesem Raum wie einen Spielzeugdrachen, eine Zahnpastatube und ein Spielkartenspiel sowie Orte im Raum, einschließlich eines Stuhls, eines Tisches, zu identifizieren. und ein Mülleimer.

Anschließend forderte das Team den Roboter auf, ein bestimmtes Objekt aufzunehmen und an einen neuen Ort zu bewegen. Dies gelang dem Zangenarm des Roboters in 58,5 % der Fälle; Die Erfolgsquote liegt in den am wenigsten überfüllten Räumen bei 82 %. (Ihre Forschung wurde noch nicht von Experten begutachtet.)

Der jüngste KI-Boom hat zu enormen Fortschritten bei den Sprach- und Computer-Vision-Fähigkeiten geführt und Robotikforschern Zugang zu Open-Source-KI-Modellen und -Tools verschafft, die es vorher nicht gab. Nicht erst vor drei Jahren, sagt Matthias Minderer, leitender Computer-Vision-Forscher bei Google. DeepMind, das nicht an dem Projekt beteiligt war.

„Ich würde sagen, es ist ziemlich ungewöhnlich, sich ausschließlich auf Standardmodelle zu verlassen, und es ist ziemlich beeindruckend, dass sie funktionieren“, sagt er.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *