NVIDIA hat Cosmos 3 veröffentlicht, ein omnimodales Weltmodell, das für Physical AI konzipiert ist und Text, Bilder, Video, Audio und Roboteraktionen in einer einzigen Architektur verarbeitet.
Was es leistet
Cosmos 3 schlussfolgert, generiert und simuliert laut der Veröffentlichung gleichzeitig über alle fünf Modalitäten hinweg. NVIDIA positioniert es als einheitliche Grundlage für die Entwicklung physischer KI und nicht als Sammlung separater spezialisierter Modelle.
Benchmark-Behauptungen
NVIDIA gibt an, dass Cosmos 3 in drei Kategorien den ersten Platz unter den Open-Source-Modellen belegt: Bildgenerierung, Videogenerierung und Roboter-Policy. Die Quelle nennt nicht, welche Benchmarks verwendet wurden oder wie groß der Vorsprung gegenüber konkurrierenden Modellen ist.
Ehrliche Einschränkungen
Das Quellenmaterial ist arm an technischen Details. Parameterzahl, Zusammensetzung der Trainingsdaten, Hardwareanforderungen für die Inferenz und Lizenzbedingungen werden in den verfügbaren Informationen nicht ausgeführt. Die Behauptung zum Ranking der Roboter-Policy ist bemerkenswert, aber gegenüber unabhängigen Bewertungen nicht verifiziert – NVIDIAs eigene Benchmarking-Methodik wird hier nicht offengelegt.
Zuvor hatte NVIDIA Open-Source-Skills und -Tools für physische KI-Agenten zusammen mit einem humanoiden Isaac-GR00T-Referenzroboter veröffentlicht, was auf einen anhaltenden Vorstoß hindeutet, seinen Physical-AI-Entwickler-Stack auszubauen.
Sollten die Benchmark-Behauptungen einer unabhängigen Prüfung standhalten, gibt Cosmos 3 Robotikentwicklern ein einziges Open-Source-Modell an die Hand, das mehrere aufgabenspezifische ersetzt – wodurch der Integrationsaufwand sinkt und die Hürde für den Einsatz leistungsfähiger Roboter-Policies möglicherweise gesenkt wird.