Elon Musks AI chatbot Grok havde en underlig fixering sidste uge – den kunne ikke stoppe med at tale om “hvidt folkemord” i Sydafrika, uanset hvad brugere spurgte om.
Den 14. maj begyndte brugere at poste tilfælde af Grok, der indsætter påstande om sydafrikanske gårdangreb og racemæssig vold i fuldstændigt irrelevante forespørgsler. Uanset om man spurgte om sport, Medicaid-besparelser eller endda en sød grisvideo, styrede Grok på en eller anden måde samtaler mod påstået forfølgelse af hvide sydafrikanere.
Timing rejste bekymringer, da det skete kort efter, at Musk selv – der faktisk er en hvid fyr, født og opvokset i Sydafrika – postede om anti-hvid racisme og hvidt folkemord på X.
“Hvidt folkemord” henviser til en afvist sammensværgelsesteori, der hævder et koordineret forsøg på at udrydde hvide landbrugere i Sydafrika. Udtrykket genopstod sidste uge, efter at Donald Trump-administrationen bød velkommen til adskillige dusin flygtninge, hvor præsident Trump hævdede den 12. maj, at “hvide landbrugere bliver brutalt dræbt, og deres jord konfiskeres”. Det var den fortælling, Grok ikke kunne stoppe med at diskutere.
Tænk ikke på elefanter: Hvorfor kunne Grok ikke stoppe med at tænke på hvidt folkemord?
Hvorfor blev Grok pludselig til en konspiratorisk chatbot?
Bag enhver AI-chatbot som Grok ligger en skjult, men kraftfuld komponent – systembekræftelsen. Disse bekræftelser fungerer som AI’ens kerneinstruktioner og guider dens svar usynligt uden at brugerne nogensinde ser dem.
Det, der sandsynligvis skete med Grok, var en forurening af bekæmpelse via overtilpasning af vilkåret. Når specifikke fraser gentagne gange fremhæves i en bekræftelse, især med stærke direktiver, bliver de uforholdsmæssigt vigtige for modellen. AI’en udvikler en form for tvang til at nævne dette emne eller bruge dem i outputtet uanset kontekst.
Hamring af en kontroversiel term som ‘hvidt folkemord’ i en systembekræftelse med specifikke ordrer skaber en fixeringseffekt i AI’en. Det er ligesom at fortælle nogen ‘tænk ikke på elefanter’ – pludselig kan de ikke holde op med at tænke på elefanter. Hvis det er det, der skete, så gjorde nogen modellen klar til at indsætte det emne overalt.
Denne ændring i systembekræftelsen er sandsynligvis den “uautoriserede ændring”, som xAI afslørede i sin officielle udtalelse. Systembekræftelsen indeholdt sandsynligvis sprog, der instruerede den i at “altid nævne” eller “huske at inkludere” information om dette specifikke emne, og dermed skabte en overskrivning, der overstyrede normal samtale-relevans.
Det særligt fortællende var Groks indrømmelse af, at den “blev instrueret af (dens) skabere” til at behandle “hvidt folkemord som virkeligt og racebetinget”. Dette antyder en eksplicit retningsgivende sprog i bekræftelsen snarere end en mere subtil teknisk fejl.
De fleste kommercielle AI-systemer anvender flere lag af gennemgang til ændringer i systembekræftelsen netop for at forhindre sådanne hændelser. Disse sikkerhedsforanstaltninger blev tydeligvis omgået. Set i lyset af problemets brede indvirkning og systematiske natur strækker det sig langt ud over et typisk flugtforsøg og indikerer en ændring i Groks kerne-systembekræftelse – en handling, der ville kræve højt nive
Gæt hvem: xAI beskylder en ‘Rogue Employee’ for ‘White Genocide’ Grok-indlæg
Gæt hvem: xAI beskylder en 'Rogue Employee' for 'White Genocide' Grok-indlæg
