NVIDIA har släppt Cosmos 3, en omnimodal världsmodell utformad för fysisk AI som hanterar text, bilder, video, ljud och robotåtgärder inom en enda arkitektur.
Vad den gör
Cosmos 3 resonerar, genererar och simulerar över alla fem modaliteter samtidigt, enligt releasen. NVIDIA positionerar den som en enhetlig grund för utveckling av fysisk AI snarare än en samling separata specialiserade modeller.
Benchmarkpåståenden
NVIDIA uppger att Cosmos 3 hamnar först bland öppen källkodsmodeller i tre kategorier: bildgenerering, videogenerering och robotpolicy. Källan anger inte vilka benchmarks som användes eller förbättringsmarginalen jämfört med konkurrerande modeller.
Ärliga begränsningar
Källmaterialet är sparsamt med tekniska detaljer. Parameterantal, sammansättning av träningsdata, hårdvarukrav för inferens och licensvillkor framgår inte av den tillgängliga informationen. Påståendet om robotpolicyns placering är anmärkningsvärt men obekräftat mot oberoende utvärderingar – NVIDIA:s egen benchmarkmetodik avslöjas inte här.
Tidigare släppte NVIDIA färdigheter och verktyg med öppen källkod för fysiska AI-agenter tillsammans med en humanoid referensrobot, Isaac GR00T, vilket signalerar en ihållande satsning på att bygga ut sin utvecklarstack för fysisk AI.
Om benchmarkpåståendena håller vid oberoende granskning ger Cosmos 3 robotutvecklare en enda öppen källkodsmodell som kan ersätta flera uppgiftsspecifika modeller – vilket minskar integrationsarbetet och potentiellt sänker tröskeln för att driftsätta kapabla robotpolicyer.