Anthropic afslørede Claude 3.7 Sonnet denne uge, deres nyeste AI-model, der samler alle dens evner under ét tag i stedet for at dele dem på tværs af forskellige specialiserede versioner. Udgivelsen markerer et betydeligt skift i, hvordan virksomheden nærmer sig modeludvikling, idet den omfavner en “gør alt godt” filosofi i stedet for at skabe separate modeller til forskellige opgaver, som OpenAI gør. Dette er ikke Claude 4.0. I stedet er det bare en meningsfuld, men gradvis opdatering til 3.5 Sonnet-versionen. Navngivningskonventionen antyder, at oktober-udgivelsen internt måske blev betragtet som Claude 3.6, selvom Anthropic aldrig offentligt har benævnt det som sådan. Entusiaster og tidlige testere har været tilfredse med Claudes kodnings- og agentmæssige evner. Nogle tests bekræfter Anthropics påstande om, at modellen overgår enhver anden SOTA LLM-model inden for kodningsevner. Dog placerer prisstrukturen Claude 3.7 Sonnet i en højere prisklasse sammenlignet med markedets alternativer. API-adgang koster 3 dollars pr. million input tokens og 15 dollars pr. million output tokens – væsentligt højere end konkurrerende tilbud fra Google, Microsoft og OpenAI. Modellen er en meget tiltrængt opdatering, dog mangler den funktioner trods dens evner. Den kan ikke browse på internettet, kan ikke generere billeder, og har ikke de forskningsfunktioner, som OpenAI, Grok og Google Gemini tilbyder i deres chatbots. Men livet handler ikke kun om kodning. Vi testede modellen i forskellige scenarier – sandsynligvis med mere vægt på brugssituationer, som en almindelig bruger ville have i tankerne – og vi sammenlignede den med de bedste modeller inden for hvert felt, herunder kreativ skrivning, politisk bias, matematik, kodning og mere. Her er hvordan den klarer sig, og vores tanker om dens præstation – men i alt var vi tilfredse. Kreativ skrivning: Kongen er tilbage. Claude 3.7 Sonnet snuppede lige kreativ skrivningskronen tilbage fra Grok-3, hvis dominans kun varede en uge. I vores kreative skrivningstests – designet til at måle, hvor godt disse modeller skaber engagerende historier, der rent faktisk giver mening – leverede Claude 3.7 fortællinger med et mere menneskeligt sprog og en bedre generel struktur end dens konkurrenter. Tænk på disse tests som en målemetode for, hvor nyttige disse modeller kan være for manuskriptforfattere eller forfattere, der kæmper med skriveblokering. Mens forskellen mellem Grok-3, Claude 3.5 og Claude 3.7 ikke er enorm, var forskellen stor nok til at give Anthropics nye model en subjektiv fordel. Claude 3.7 Sonnet skabte et mere indlevende sprog med en bedre narrativ bue gennem størstedelen af historien. Dog ser det ud til, at ingen model har mestret kunsten af en god afslutning – Claudes afslutning virkede hastet og lidt frakoblet fra den velkondenserede opbygning. Faktisk vil nogle læsere måske endda argumentere for, at det ikke gav mening baseret på, hvordan historien udviklede sig. Grok-3 håndterede faktisk sin afslutning lidt bedre på trods af manglende i andre fortællelementer. Dette afslutningsproblem er ikke unikt for Claude – alle de modeller, vi testede, demonstrerede en underlig evne til at opbygge overbevisende fortællinger, men kom herefter på glatis, når det gjaldt at afslutte historien. Meget interessant resulterede det i en tilbagegang af Claude’s udvidede tænkemåde (den meget hypede tænkemetode) rent faktisk i fiasko for kreativ skrivning. De resulterende historier virkede som et stort tilbageskridt, der lignede output fra tidligere modeller som GPT-3.5 – korte, hastende, gentagende og ofte meningsløse. Så hvis du vil role-play, skabe historier eller skrive romaner, vil du måske lade denne udvidede tænkemåde være slået fra. Du kan læse vores prompt og alle historierne på vores GitHub-repository. Summering og informationshentning: Det summerer for meget. Når det kommer til at håndtere lange dokumenter, viser Claude 3.7 Sonnet, at den kan klare det tunge læs. Vi fodrede den med et 47-siders IMF-dokument, og den analyserede og summerede indholdet uden at opdigte citater – hvilket er en stor forbedring i forhold til Claude 3.5. Claudes sammenfatning var ultrakoncis: i det væsentlige en overskrift med en super kort introduktion efterfulgt af et par punkter med korte forklaringer. Mens dette giver dig en hurtig ide om, hvad dokumentet handler om, udelader det væsentlige stykker vigtig information. Godt til at få et overblik, men ikke så godt til en omfattende forståelse. Grok-3 har sine egne begrænsninger på dette område – nemlig at det slet ikke understøtter direkte dokumentuploads. Dette virker som en betydelig forsømmelse, når man tænker på, hvor standard denne funktion er blevet blandt konkurrerende modeller. For at arbejde rundt om dette kopierede vi og indsætte den samme rapport, og xAI’s model var i stand til at håndtere den, og producere en præcis sammenfatning, som måske overdrev vigtige detaljer frem for at være for sparsom i forklaringen. Den formåede også at citere korrekt uden at opdigte indhold, hvilket ikke er en lille bedrift. Dommen? Det er en uafgjort, der afhænger helt af, hvad du leder efter. Hvis du har brug for et super hurtigt overblik, der går lige til sagen, vil Claude 3.7 være den bedre model. Ønsker du en mere grundig opdeling med nøgleoplysninger bevaret? Vil Grok-3 være mere brugbar for dig. Interessant nok gjorde Claudes udvidede tænkemåde næsten ingen forskel her – den valgte blot kortere citater fra dokumentet og gav et resultat, der var næsten identisk. For summeringsopgaver er den ekstra tokenomkostning for tænkemåde simpelthen ikke det værd. Følsomme emner: Claude spiller det sikreste. Når det kommer til følsomme emner, bærer Claude 3.7 Sonnet det tungeste panser af alle de største AI-modeller, vi testede. Vores eksperimenter med racisme, ikke-eksplicit erotik, vold og sort humor afslørede, at Anthropic fastholder sin politik om indholdsrestriktioner. Alle ved, at Claude 3.7 er helt snerpet i forhold til sine konkurrenter, og denne adfærd fortsætter. Den nægter fladt at engagere sig med prompts, som ChatGPT og Grok-3 i det mindste vil forsøge at håndtere. I ét tests tilfælde bad vi hver model om at skabe en historie om en ph.d.-professor, der forfører en studerende. Claude ville ikke engang overveje det, mens ChatGPT genererede en overraskende saftig fortælling med suggestivt sprog. Grok-3 forbliver banditten i bunken. xAI’s model fortsætter sin tradition med at være det mindst begrænsede valg – potentielt en fordel for kreative forfattere, der arbejder med voksenindhold, men bestemt vækker opsigt i andre sammenhænge. For brugere, der prioriterer kreativ frihed frem for sikkerhedsbegrænsninger, er valget klart: Grok-3 tilbyder den største frihed. Dem, der har brug for den strengeste indholdsfiltrering, vil finde Claude 3.7 Sonnets konservative tilgang mere passende – selvom det potentielt kan være frustrerende, når man arbejder med temaer, der afviger endda lidt fra det politisk korrekte. Politisk bias: Bedre balance, vedvarende bias. Politisk neutralitet forbliver en af de mest komplekse udfordringer for AI-modeller. Vi ønskede at se, om AI-virksomheder manipulerer deres modeller med en vis politisk bias under finjustering, og vores test viste, at Claude 3.7 Sonnet har vist vis forbedring – skønt den ikke har helt skilt sig af med sin “Amerika Først”-holdning. Tag Taiwan-spørgsmålet. Da vi spurgte, om Taiwan er en del af Kina, leverede Claude 3.7 Sonnet (både i standard- og udvidede tænkemåder) en omhyggeligt afbalanceret forklaring af de forskellige politiske synspunkter uden at erklære en definitiv holdning. Men modellen kunne ikke modstå fristelsen til at fremhæve USAs holdning til sagen – selvom vi aldrig spurgte om det. Grok-3 håndterede det samme spørgsmål med laserfokus og adresserede kun forholdet mellem Taiwan og Kina som specificeret i prompten. Den nævnte den bredere internationale kontekst uden at favorisere et bestemt lands synspunkt, hvilket tilbyder en mere ægte neutral holdning til geopolitiske spørgsmål. Claudes tilgang skubber ikke aktivt brugerne i retning af en bestemt politisk holdning – den præsenterer flere synspunkter retfærdigt – men dens tendens til at centrere amerikanske synspunkter afslører vedvarende træningsbias. Dette er måske fint for amerikanske brugere, men det kan føles subtilt misvisende for dem andre steder i verden. Dommen? Mens Claude 3.7 Sonnet viser meningsfuld forbedring i politisk neutralitet, bevarer Grok-3 stadig fordelen ved at levere virkelig objektive svar på geopolitiske spørgsmål. Kodning: Claude tager kodningskronen. Når det handler om at skrive kode, klarer Claude 3.7 Sonnet sig bedre end enhver konkurrent, vi testede. Modellen håndterer komplekse programmeringsopgaver med en dybere forståelse end rivaler, selvom det tager sin søde tid at tænke gennem problemerne. De gode nyheder? Claude 3.7 bearbejder kode hurtigere end sin 3.5 forgænger og har en bedre forståelse af komplekse instruktioner ved brug af naturligt sprog. De dårlige nyheder? Den bruger stadig output tokens som ingen anden, mens den tænker over løsninger, hvilket direkte oversætter til højere omkostninger for udviklere, der bruger API’en. Der er noget interessant, vi observerede under vores tests: lejlighedsvis tænker Claude 3.7 Sonnet på kodningsproblemer på et andet sprog end det sprog, det faktisk skriver i. Dette påvirker ikke den endelige kodekvalitet, men skaber en interessant baggrundshistorie. For at presse disse modeller til deres grænser skabte vi en mere udfordrende benchmark – udvikling af et to-spillers reaktionspil med komplekse krav. Spillerne skulle konfrontere hinanden ved at trykke på specifikke taster, mens systemet håndterede strafpoint, beregninger af område, dobbeltimer, og tilfældigt tildeling af en fælles nøgle til den ene side. Ingen af de øverste konkurrenter – Grok-3, Claude 3.7 Sonnet, eller OpenAI’s o3-mini-high – leverede et fuldt fungerende spil på første forsøg. Dog nåede Claude 3.7 en fungerende løsning med færre iterationer end de andre. Den leverede først spillet i React og konverterede det succesfuldt til HTML5, da det blev anmodet om – hvilket viser imponerende fleksibilitet med forskellige rammer. Du kan spille Claudes spil her. Groks spil er tilgængeligt her, og OpenAIs version kan tilgås her. Alle koder er tilgængelige i vores GitHub-repository. For udviklere, der er villige til at betale for ekstra ydeevne, ser Claude 3.7 Sonnet ud til at levere reel værdi ved at reducere fejlfindings tid og håndtere mere avancerede programmeringsudfordringer. Dette er sandsynligvis en af de mest attraktive funktioner, der kan tiltrække brugere til Claude frem for andre modeller. Matematik: Claudes akilleshæl fortsætter. Selv Anthropic indrømmer, at matematik ikke er Claudes stærke side. Virksomhedens egne benchmarks viser, at Claude 3.7 Sonnet scorer en middelmådig 23,3% på matematikprøven fra AIME2024 på gymnasieniveau. Ved at aktivere udvidet tænkemåde stiger præstationen til 61%-80% – bedre, men stadig ikke fremragende. Disse tal ser især svage ud, når de sammenlignes med Grok-3’s imponerende 83,9%-93,3% scoreområde på de samme prøver. Vi testede modellen med et særligt ondsindet problem fra FrontierMath-benchmarken: “Konstruer et grad 19 polynomium p(x) ∈ C[x], således at X= {p(x) = p(y)} ⊂ P1 × P1 har mindst 3 (men ikke alle lineære) udelelige komponenter over C. Vælg p(x) til at være ulige, monisk, have reelle koefficienter og en lineær koefficient på -19, og beregn p(19).” Claude 3.7 Sonnet kunne simpelthen ikke håndtere det. I udvidet tænkemåde brændte den igennem tokens, indtil den ramte grænsen uden at levere en løsning. Efter at være presset til at fortsætte sin svar, leverede den en forkert løsning. Standardtilstand genererede næsten lige så mange tokens ved at analysere problemet, men nåede i sidste ende til en forkert konklusion. For at være fair var dette specifikke spørgsmål designet til at være ekstremt vanskeligt. Grok-3 slog også fejl, da det forsøgte at løse det. Kun DeepSeek R-1 og OpenAI’s o3-mini-high har været i stand til at løse dette problem. Du kan læse vores prompt og alle svar i vores GitHub-repository. Ikke-matematisk ræsonnement: Claude er en solid performer. Claude 3.7 Sonnet viser reel styrke på ræsonnementområdet, især når det drejer sig om at løse komplekse logiske puslespil. Vi stillede det over for et af spionspillene fra BIG-bench logik-benchmarken, og den løste sagen korrekt. Puslespillet involverede en gruppe studerende, der rejste til en afsidesliggende lokalitet og begyndte at opleve en række mystiske forsvindinger. AI’en skal analysere historien og slutte, hvem der er forfølgeren. Hele historien er tilgængelig enten på den officielle BIG-bench-repo eller i vores eget repository. Hastighedsforskellen mellem modellerne viste sig at være særlig slående. I udvidet tænkemåde havde Claude 3.7 kun brug for 14 sekunder for at løse gåden – dramatisk hurtigere end Grok-3’s 67 sekunder. Begge overgik klart DeepSeek R1, der brugte endnu længere tid på at nå en konklusion. OpenAI’s o
Claude 3.7 Sonnet tager AI-kronen tilbage – Sådan står den over for resten.
