2 min read

NVIDIA Cosmos 3: Jeden model open source do tekstu, wideo, dźwięku i działań robotów

NVIDIA wprowadziła Cosmos 3, omnimodalny model świata zaprojektowany dla fizycznej AI, który obsługuje tekst, obrazy, wideo, dźwięk i działania robotów w ramach jednej architektury.

Co potrafi

Według informacji o premierze Cosmos 3 rozumuje, generuje i symuluje jednocześnie we wszystkich pięciu modalnościach. NVIDIA pozycjonuje go jako jednolity fundament dla rozwoju fizycznej AI, a nie jako zbiór oddzielnych, wyspecjalizowanych modeli.

Deklaracje dotyczące testów porównawczych

NVIDIA twierdzi, że Cosmos 3 zajmuje pierwsze miejsce wśród modeli open source w trzech kategoriach: generowaniu obrazów, generowaniu wideo i polityce robotów. Źródło nie określa, które testy porównawcze zastosowano ani jaka była przewaga nad konkurencyjnymi modelami.

Uczciwe ograniczenia

Materiał źródłowy jest skąpy pod względem szczegółów technicznych. Liczba parametrów, skład danych treningowych, wymagania sprzętowe dotyczące wnioskowania oraz warunki licencyjne nie są szczegółowo opisane w dostępnych informacjach. Deklaracja dotycząca rankingu polityki robotów jest godna uwagi, ale niezweryfikowana w niezależnych ocenach — własna metodologia testów porównawczych NVIDIA nie została tu ujawniona.

Wcześniej NVIDIA udostępniła open source'owe umiejętności i narzędzia agentów fizycznej AI wraz z referencyjnym robotem humanoidalnym Isaac GR00T, sygnalizując trwały rozwój swojego stosu deweloperskiego dla fizycznej AI.

Jeśli deklaracje dotyczące testów porównawczych potwierdzą się pod niezależną kontrolą, Cosmos 3 daje twórcom robotów jeden model open source zastępujący kilka modeli wyspecjalizowanych — zmniejszając nakłady na integrację i potencjalnie obniżając próg wdrażania wydajnych polityk robotów.