NVIDIA ha rilasciato Cosmos 3, un modello di mondo omnimodale progettato per l'IA fisica che gestisce testo, immagini, video, audio e azioni dei robot all'interno di un'unica architettura.
Cosa fa
Cosmos 3 ragiona, genera e simula contemporaneamente su tutte e cinque le modalità, secondo il comunicato. NVIDIA lo posiziona come una base unificata per lo sviluppo dell'IA fisica anziché come un insieme di modelli specializzati separati.
Affermazioni sui benchmark
NVIDIA afferma che Cosmos 3 si classifica al primo posto tra i modelli open source in tre categorie: generazione di immagini, generazione di video e policy dei robot. La fonte non specifica quali benchmark siano stati utilizzati né il margine di miglioramento rispetto ai modelli concorrenti.
Limiti dichiarati
Il materiale di origine è scarso sui dettagli tecnici. Numero di parametri, composizione dei dati di addestramento, requisiti hardware per l'inferenza e termini di licenza non sono dettagliati nelle informazioni disponibili. L'affermazione sul primato nella policy dei robot è degna di nota ma non verificata rispetto a valutazioni indipendenti: la metodologia di benchmark di NVIDIA non è qui divulgata.
In precedenza, NVIDIA aveva rilasciato skill e strumenti open source per agenti di IA fisica insieme a un robot di riferimento umanoide Isaac GR00T, segnalando una spinta costante a sviluppare il proprio stack per gli sviluppatori di IA fisica.
Se le affermazioni sui benchmark reggono a un esame indipendente, Cosmos 3 offre agli sviluppatori di robotica un unico modello open source per sostituirne diversi specifici per attività, riducendo i costi di integrazione e potenzialmente abbassando la soglia per implementare policy dei robot capaci.