X Square Robot stellt neues Modell für verkörperte KI vor und kündigt an, dass Roboter in 35 Tagen in die Haushalte kommen werden
Mit Unterstützung von Alibaba, ByteDance, Xiaomi und Meituan stellte X Square Robot ein grundlegendes Modell der verkörperten KI der nächsten Generation für Haushaltsroboter vor und kündigte an, dass die ersten Einsätze in Privathaushalten innerhalb von 35 Tagen beginnen sollen.
BEIJING, 23. April 2026 /PRNewswire/ -- X Square Robot stellte am Dienstag „Wall-B" vor, ein neues, physisch verkörpertes KI-Grundmodell, das für den Einsatz in realen Haushalten konzipiert ist. Das Unternehmen bezeichnete dies als einen wichtigen Schritt auf dem Weg zur Integration von Allzweckrobotern in den Familienalltag.
Bei einer Produkteinführung unter dem Motto „Born to Bot, Bot to Family" stellte das Unternehmen zudem seine „World Unified Model" (WUM)-Architektur vor, ein Trainingsframework, das Bildverarbeitung, Sprache, Bewegung und physikalische Vorhersagen von Anfang an in einem einzigen System vereint. Laut X Square soll das Modell Robotern helfen, in der weitaus unvorhersehbareren Umgebung eines Haushalts zu agieren, wo Aufgaben, Raumaufteilungen und Interaktionen von Moment zu Moment variieren.
„Roboter in Fabriken und Roboter in Privathaushalten unterscheiden sich grundlegend", sagte Qian Wang, Gründer und CEO von X Square Robot. „In Fabriken wiederholen sie dieselbe Aktion 10.000 Mal. In einem Privathaushalt müssen sie möglicherweise 10.000 verschiedene Aktionen ausführen, jede in einem anderen Kontext. Die eigentliche Herausforderung ist nicht die Wiederholung, sondern die Frage, ob ein Roboter neue, nicht trainierte Aktionen in einer unstrukturierten Umgebung ausführen kann."
Wall-B ist die erste vollständige Umsetzung der World Unified Model-Architektur des Unternehmens. Im Gegensatz zu modularen Systemen, die Wahrnehmung, Sprache und Steuerung separat trainieren, optimiert das World Unified Model laut X Square Robot diese Fähigkeiten von Anfang an gemeinsam. Das Unternehmen erklärte, dass dadurch physikalische Vorhersagen – einschließlich Kraft, Reibung und Kollisionsdynamik – als Teil des Modells selbst entstehen können, anstatt nachträglich hinzugefügt zu werden.
„Wir trainieren Sehen, Sprache, Handeln und Vorhersagen von Anfang an im selben Netzwerk", sagte Wang Hao, Chief Technology Officer von X Square. „Menschliche Säuglinge lernen nicht in isolierten Phasen zu sehen, sich zu bewegen und zu kommunizieren. Sie lernen, indem sie Wahrnehmung und Handeln gleichzeitig integrieren, mit ständigem Feedback aus der physischen Welt. Das ist das Prinzip hinter unserer Architektur."

