1 min read

NVIDIA Cosmos 3: yksi avoimen lähdekoodin malli tekstille, videolle, äänelle ja robottitoiminnoille

NVIDIA on julkaissut Cosmos 3:n, omnimodaalisen maailmamallin, joka on suunniteltu fyysiselle tekoälylle ja joka käsittelee tekstiä, kuvia, videota, ääntä ja robottitoimintoja yhdessä arkkitehtuurissa.

Mitä se tekee

Cosmos 3 päättelee, generoi ja simuloi kaikkien viiden modaliteetin yli samanaikaisesti, julkaisun mukaan. NVIDIA asemoi sen fyysisen tekoälyn kehityksen yhtenäiseksi perustaksi erillisten erikoistuneiden mallien kokoelman sijaan.

Vertailuväitteet

NVIDIA kertoo Cosmos 3:n olevan avoimen lähdekoodin mallien joukossa ensimmäinen kolmessa kategoriassa: kuvan generointi, videon generointi ja robottikäytäntö. Lähde ei täsmennä, mitä vertailuarvoja käytettiin tai kuinka suuri parannus kilpaileviin malleihin verrattuna oli.

Rehelliset rajoitukset

Lähdemateriaali on niukka teknisten yksityiskohtien osalta. Parametrien määrää, harjoitusdatan koostumusta, päättelyn laitteistovaatimuksia ja lisenssiehtoja ei eritellä saatavilla olevassa tiedossa. Robottikäytäntöä koskeva sijoitusväite on huomionarvoinen mutta vahvistamaton riippumattomien arviointien suhteen — NVIDIAn omaa vertailumetodologiaa ei julkisteta tässä.

Aiemmin NVIDIA julkaisi avoimen lähdekoodin fyysisen tekoälyn agenttitaidot ja -työkalut Isaac GR00T -humanoidiviiterobotin ohella, mikä viestii jatkuvasta pyrkimyksestä rakentaa fyysisen tekoälyn kehittäjäpinoa.

Jos vertailuväitteet kestävät riippumattoman tarkastelun, Cosmos 3 antaa robotiikkakehittäjille yhden avoimen lähdekoodin mallin korvaamaan useita tehtäväkohtaisia malleja — vähentäen integraatiokuormaa ja mahdollisesti madaltaen kynnystä kyvykkäiden robottikäytäntöjen käyttöönotolle.