Overskrifter

Ny open source AI-model matcher DeepSeek’s præstation – med langt mindre træningsdata

Ny open source AI-model matcher DeepSeek's præstation - med langt mindre træningsdata Ny open source AI-model matcher DeepSeek's præstation - med langt mindre træningsdata

Et hold af internationale forskere fra førende akademiske institutioner og teknologivirksomheder vendte op og ned på AI-ræsonnementet onsdag med en ny model, som matchede – og lejlighedsvis oversteg – en af Kinas mest sofistikerede AI-systemer: DeepSeek.
OpenThinker-32B, udviklet af konsortiet Open Thoughts, opnåede en nøjagtighed på 90,6% på MATH500 benchmarken og overgik dermed DeepSeeks 89,4%.
Modellen udførte også bedre end DeepSeek på generelle problemløsningsopgaver med en score på 61,6 på GPQA-Diamond benchmarken i forhold til DeepSeeks 57,6. På LCBv2 benchmarken opnåede den en solid score på 68,9, hvilket viser stærk præstation på tværs af forskellige testscenarier.
Med andre ord er den bedre end en tilsvarende version af DeepSeek R1 inden for generel videnskabelig viden (GPQA-Diamond). Den besejrede også DeepSeek på MATH500, mens den tabte på AIME benchmarkene – begge forsøger at måle matematisk dygtighed.
Den er også lidt dårligere end DeepSeek til kodning med en score på 68,9 point mod 71,2, men da modellen er open source, kan alle disse scorer drastisk forbedres, når folk begynder at forbedre den.
Det der adskilte denne præstation var dens effektivitet: OpenThinker krævede kun 114.000 træningseksempler for at opnå disse resultater, mens DeepSeek brugte 800.000.
Datasettet OpenThoughts-114k blev pakket med detaljerede metadata for hvert problem: sande løsninger, testcases til kodeproblemer, startkode når det var nødvendigt og domænespecifik information.
Dets tilpassede Curator-ramme validerede kode løsninger mod testcases, mens en AI-dommer håndterede matematisk verifikation.
Holdet rapporterede, at de brugte fire noder udstyret med otte H100 GPU’er, og det blev gennemført på cirka 90 timer. Et separat datasæt med 137.000 ikke-verificerede prøver, trænet på Italiens Leonardo Supercomputer, brugte 11.520 A100 timer på blot 30 timer.
“Verificering tjener til at opretholde kvalitet, mens mangfoldigheden og størrelsen af træningsmetoder øges,” bemærkede holdet i deres dokumentation. Forskningen indikerede, at selv uverificerede versioner klarede sig godt, selvom de ikke matchede de verificerede models højdepunktsresultater.
Modellen blev bygget på Alibaba’s Qwen2.5-32B-Instruct LLM og understøtter et beskedent kontekstvindue på 16.000 tokens – nok til at håndtere komplekse matematiske beviser og lange kodningsproblemer, men langt mindre end de nuværende standarder.
Denne udgivelse kommer midt i en intensiverende konkurrence inden for AI-ræsonnering, som synes at ske med lynets hast. OpenAI annoncerede den 12. februar, at alle modeller efter GPT-5 ville have ræsonneringsevner. Én dag senere overdrev Elon Musk xAI’s Grok-3’s forbedrede problem-løsningsfærdigheder og lovede, at det ville være den bedste ræsonneringsmodel hidtil, og for få timer siden frigav Nous Research en anden open-source ræsonneringsmodel, DeepHermes, baseret på Metas Llama 3.1.
Feltet fik momentum, efter at DeepSeek demonstrerede en sammenlignelig præstation med OpenAIs o1 til markant reducerede omkostninger. DeepSeek R1 er gratis at downloade, bruge og modificere, og træningsteknikkerne er også afsløret.
Dog, i modsætning til Open Thoughts, som besluttede at gøre alt open source, holdt DeepSeeks udviklingsteam deres træningsdata private.
Denne vigtige forskel betyder, at udviklere måske har lettere ved at forstå OpenThinker og genskabe dens resultater fra bunden, end de ville have haft med DeepSeek, fordi de har adgang til alle brikkerne i puslespillet.
For det bredere AI-fællesskab demonstrerer denne udgivelse endnu engang levedygtigheden af at opbygge konkurrencedygtige modeller uden massive proprietære datasæt. Derudover kan den være en mere pålidelig konkurrent for vestlige udviklere, som stadig er usikre på at bruge en kinesisk model – åben eller ej.
OpenThinker kan downloades på HuggingFace. En mindre, mindre kraftfuld 7B-parametermodel er også tilgængelig til lavere enheder.
Open Thoughts holdet samlede forskere fra forskellige amerikanske universiteter, herunder Stanford, Berkeley og UCLA, sammen med Tysklands Juelich Supercomputing Center. Toyota Research Institute, baseret i USA, og andre aktører på det europæiske AI-scene støtter også projektet.
Redigeret af Josh Quittner og Sebastian Sinclair.

Leave a Reply

Your email address will not be published. Required fields are marked *