OpenAI’s ChatGPT-4.5 har opnået en milepæl, der engang blev anset for årtier væk: at overbevise flertallet af deltagerne i en Turing-test-lignende evaluering om, at det var et menneske.
I en nylig undersøgelse foretaget af University of California, San Diego, der havde til formål at vurdere, om store sprogmodeller kan bestå den klassiske Turing-test med tre parter, blev det rapporteret, at GPT-4.5 lykkedes i 73% af tekstbaserede samtaler.
Undersøgelsen viste, at den seneste store sprogmodel overgik tidligere versioner, såsom GPT-4.0 og andre, herunder ELIZA og LLama-3.1-405 B.
GPT-4.5, lanceret af OpenAI i februar, var i stand til at registrere subtile sprogmæssige elementer, hvilket fik den til at fremstå mere menneskelig, ifølge Cameron Jones, en postdoktorforsker ved UC San Diego.
“Hvis du spørger dem, hvordan det er at være menneske, har modellerne tendens til at svare godt og kan overbevisende lade som om at have emotionelle og seksuelle oplevelser,” fortalte Jones til Decrypt. “Men de har svært ved ting som realtidsinformation eller aktuelle begivenheder.”
Turing-testen, foreslået af den britiske matematiker Alan Turing i 1950, vurderer, om en maskine kan efterligne menneskelig samtale overbevisende nok til at narre en menneskelig dommer. Hvis dommeren ikke pålideligt kan skelne maskinen fra mennesket, anses maskinen for at have bestået.
For at evaluere AI-modellernes præstation blev to forskellige typer opgaver testet: en grundlæggende opgave med minimal instruktion og en mere detaljeret opgave, der instruerede modellen i at antage stemmen fra en indadvendt, internet-kyndig ung person, der bruger slang.
“Vi valgte vidnerne på baggrund af en undersøgelse, hvor vi evaluerede fem forskellige opgaver og syv forskellige LLM’er og fandt ud af, at LLaMa-3.1-405B, GPT-4.5 og denne persona-opgave klarede sig bedst,” sagde forskerne i undersøgelsen.
Undersøgelsen behandlede også de bredere sociale og økonomiske implikationer af, at store sprogmodeller består Turing-testen, herunder potentiel misbrug.
“Nogle risici inkluderer misinformation, som f.eks. astroturfing, hvor robotter lader som om at være mennesker for at øge interessen for en sag,” sagde Jones. “Andre involverer svig eller social ingeniørvirksomhed – hvis en model over tid sender e-mails til nogen og virker ægte, kan den overtale dem til at dele følsomme oplysninger eller få adgang til bankkonti.”
I mandags meddelte OpenAI lanceringen af den næste iteration af deres flagskibs GPT-model, GPT-4.1. Denne nye AI er endnu mere avanceret og kan behandle omfattende dokumenter, kodebaser eller endda romaner. OpenAI sagde, at de ville erstatte GPT-4.5 med GPT-4.1 i løbet af sommeren. Mens Turing aldrig oplevede dagens AI-landskab, påpegede Jones, at testen, han foreslog i 1950, forbliver relevant. “Turing-testen er stadig relevant på den måde, Turing havde til hensigt,” sagde han. “I sit papir taler han om læringsmaskiner og antyder, at måden at bygge noget, der består Turing-testen, er ved at skabe et beregningsbaseret barn, der lærer fra masser af data. Sådan fungerer moderne maskinlæringsmodeller i bund og grund.”
Da han blev spurgt om kritik af undersøgelsen, anerkendte Jones dens værdi, mens han præciserede, hvad Turing-testen måler, og ikke måler.
“Det vigtigste, jeg vil sige, er, at Turing-testen ikke er en perfekt test af intelligens – eller endda af menneskelighed,” sagde han. “Men den er værdifuld for det, den måler: om en maskine kan overbevise en person om, at den er menneskelig. Det er værd at måle og har reelle implikationer.” Tilrettet af Sebastian Sinclair.
OpenAI’s ChatGPT-4.5 består Turing-testen med en succesrate på 73%
