GPT-4o omogućuje zvuk, sliku i tekst u stvarnom vremenu

Najnovija verzija OpenAI-jeve umjetne inteligencije omogućuje napredne značajke u prijevodu u stvarnom vremenu

GPT-4o (“o” za “omni”) je korak prema prirodnijoj interakciji između čovjeka i računala, tako novu verziju najavljuje OpenAI na svojem blogu – kao ulaz može biti bilo koja kombinacija teksta, zvuka i slike te se zatim generira bilo koja kombinacija izlaza u obliku teksta, zvuka i slike.

U komunikaciji novi chatbot može odgovoriti na audio unose za samo 232 milisekunde, s prosjekom od 320 milisekundi, što je slično vremenu ljudskog odgovora u razgovoru. Poklapa se s performansama GPT-4 Turbo na tekstu na engleskom i kodu, sa značajnim poboljšanjem na tekstu na jezicima koji nisu engleski.

GPT-4o je posebno bolji u razumijevanju slike i zvuka u usporedbi s postojećim modelima. Prije GPT-4o mogli ste koristiti Glasovni način za razgovor s ChatGPT-om uz prosječno kašnjenje od 2,8 sekundi (GPT-3,5) i 5,4 sekunde (GPT-4).

Kako bi se to postiglo Voice Mode se sastoji od tri odvojena modela: jedan jednostavni model transkribira zvuk u tekst, GPT-3.5 ili GPT-4 uzima tekst i ispisuje tekst, a treći jednostavni model taj tekst pretvara natrag u zvuk.

20 jezika je odabrano za kompresiju novog tokenizatora u različitim jezičnim obiteljima, a GPT-4o dizajnom ima ugrađenu sigurnost u svim modalitetima, kroz tehnike kao što su filtriranje podataka o obuci i usavršavanje ponašanja modela nakon obuke.

GPT-4o je OpenAI-jev najnoviji korak u pomicanju granica dubokog učenja, ovaj put u smjeru praktične upotrebljivosti. Protekle su dvije godine uložili mnogo truda radeći na poboljšanju učinkovitosti na svakom sloju skupa.

GPT-4o mogućnosti će se uvoditi iterativno – mogućnosti teksta i slika počinju se uvoditi odmah u ChatGPT dostupnim u besplatnoj razini i Plus korisnicima s do 5x većim ograničenjima poruka. U nadolazećim tjednima izbacit će novu verziju glasovnog načina rada s GPT-4o u alfa verziji unutar ChatGPT Plus.

GPT-4o je 2x brži, upola jeftiniji i ima 5x viša ograničenja brzine u usporedbi s GPT-4 Turbo.

GPT-4o omogućuje zvuk, sliku i tekst u stvarnom vremenu

Najnovija verzija OpenAI-jeve umjetne inteligencije omogućuje napredne značajke u prijevodu u stvarnom vremenu

Pretraga

Najnovije objave

Arhiva

Zaštita privatnosti

Komentiranje članaka

Najnovija verzija OpenAI-jeve umjetne inteligencije omogućuje napredne značajke u prijevodu u stvarnom vremenu

Možda ti se također svidi

Pretraga

Najnovije objave

Arhiva

Politika privatnosti