Overskrifter

OpenAI’s nye ‘o’ Serie er et kæmpe skridt mod multimodale AI assistenter.

OpenAI's nye 'o' Serie er et kæmpe skridt mod multimodale AI assistenter. OpenAI's nye 'o' Serie er et kæmpe skridt mod multimodale AI assistenter.

Løbet for at dominere AI-fronten har netop fået endnu en plottwist – og denne gang taler den tilbage, kigger på dig og måske endda lytter med følelse.
OpenAI lancerede i dag sin nye “o”-serie af modeller og introducerede GPT-4o og dens letvægtsfætter, GPT-4o-mini (også kaldet o4 og o3). Disse nye modeller er ikke bare opgraderede chatbots – de er omnimodale, hvilket betyder, at de kan forstå og generere tekst, billede, lyd og video naturligt. Ingen Frankensteins moduler sammensat for at efterligne visuel kunnen.
Dette er effektivt AI med øjne, ører og en mund.
Én model til at herske over dem alle?
OpenAI siger, at “o” står for “omni,” og konsekvenserne er præcis, hvad du ville forvente: en forenet model, der kan modtage et skærmbillede, høre din stemme knække, og levere et emotional kalibreret svar – alt i realtid. Det er det første virkelige hint om en fremtid, hvor AI-assistenter ikke bare er i din telefon – de er din telefon.
O3 (mini) versionen er bygget til hastighed og overkommelighed, med ydeevne tættere på Claude Haiku eller en velsmurt Mistral, men stadig bibeholder den fulde multimodale superkraft. Imens søger o4 (GPT-4o extended) direkte mod de store ligaer, matcher GPT-4-turbo i kraft men suser gennem billeder og lyd som var det en afslappet runde af mimik.
Og det handler ikke kun om hastighed. Disse modeller er billigere at køre, mere effektive at implementere, og kunne – her er det afgørende – fungere naturligt på enheder. Ja, du læste rigtigt: realtid, multimodal AI uden latency fra skyen. Tænk personlige assistenter, der ikke blot lytter til kommandoer, men svarer som kammerater.
Ud over chatbots: Indtræd i den agentiske æra
Med denne udgivelse lægger OpenAI fundamentet for den agentiske lag af AI – de klogere-end-klog assistenter, der ikke kun taler og skriver, men observerer, handler og autonomt løser opgaver.
Ønsker du, at din AI skal analysere en Twitter-tråd, generere en graf, udarbejde en tweet, og offentliggøre den på Discord med et smørret meme? Det er ikke kun inden for rækkevidde. Det er praktisk talt på dit skrivebord – iført en monocle, sipper espresso, og retter din grammatik i en skøn baryton.
o-serien af modeller er beregnet til at drive alt fra realtids stemmebots til AR-briller, og tilbyder et hint om “AI-first” hardware-bevægelsen, der har tech’s gamle garde (og nye) på vippen. På samme måde som iPhone omdefinerede mobilen, er disse modeller begyndelsen på AI’s tidsalder med naturlige grænseflader.
OpenAI mod. feltet
Dette sker ikke i et vakuum. Googles Gemini udvikler sig. Anthropics Claude kæmper over sin vægtklasse. Meta har en Llama i laboratoriet. Men OpenAIs o-serie kan have gjort noget de andre endnu ikke har spottet: realtid, forenet multimodal flydende i en enkelt model.
Dette kunne være OpenAIs svar på det uundgåelige: hardware. Enten gennem Apples rygtede AI-samarbejde eller deres egen “Jony Ive stealth mode” projekt, forbereder OpenAI sig på en verden, hvor AI ikke blot er en app – det er OS’et.
Redigeret af Andrew Hayward
Generelt Intelligente nyhedsbrev
En ugentlig AI rejse fortalt af Gen, en generativ AI-model.

Leave a Reply

Your email address will not be published. Required fields are marked *