Overskrifter

Illustriøs: Den AI-model, der ønsker at herske over animekunstens skabelse

Illustrious, et tekst-til-billede model baseret på Stable Diffusion XL, er blevet så dominant i AI-kunstmiljøet, at Civitai, det største hub for AI-kunstmodeller, nød til at oprette en separat kategori for at håndtere dets omfattende økosystem af ressourcer.
Og alt skete på tre måneder. Hemmeligheden bag dets succes? En tilbagevenden til grundlaget med en drejning.
Mens nyere modeller som SD 3.5 og Flux bygger på lange naturlige sprogbeskrivelser, valgte Onoma AI, udviklerne af Illustrious, en anden vej ved at udnytte Danbooru-tags til at hjælpe deres model med at forstå begreber uden at skulle opfinde hjulet om igennem complexe beskrivelsessystemer.
Modellen er trænet på Danboorus store bibliotek af taggede animebilleder, hvilket giver den et edge i forståelse af visuelle begreber.
Hver tag i Danboorus system repræsenterer specifikke elementer som karakteregenskaber, tøj, pose eller baggrunde, hvilket gør det muligt at kontrollere de genererede billeder præcist uden at spilde værdifulde tokens på lange beskrivelser.
Disse tags er omkring i årvis og er blevet en slags standard for billedkategorisering blandt kunst-/animeentusiaster.
Modellen er højt præcis og effektiv, når det kommer til at forstå egenskaberne ved et billede.
“Det er som at have en kunstner, der forstår præcis, hvad du vil, uden at du skal forklare det i akavet,” sagde Vishnu, en Discord-medlem der deltagende i en server fokuseret på NSFW AI-indhold, til Decrypt. “Du skal bare vide de rigtige tags.”
I sit kjerne, bruger Illustrious den gamle SDXL-arkitektur med et sofistikat dual-encoder system der kombinerer CLIP ViT-L og OpenCLIP ViT-bigG til at forstå ord og knytte dem til deres visuelle equivalent.
Modellen kan behandle og generere billeder i det imponerende 1536×1536 opløsning, med evne til at strække sig op til 2048×2048 og endda 3744×3744 uden betydelig kvalitetsnedgang.
Som sammenligning, håndterede den originale SDXL fulde HD-opløsninger (1024×1024).
Dybagt
Rejsen til at skabe Illustrious var systematisk og overvejet. Den oprindelige træningsfase, der skabte version 0.1, behandlede 7,5 millioner billeder i 1024×1024 opløsning med en batchstørrelse på 192 billeder per batch.
Holdet balancerede forsigtigt læringstemer, kørte i 20 epochs (proces, hvor AI studerer 100% af sit datasæt) for at opbygge en solid grundlag. Når resultaterne var tilstrækkelig godt, fortsatte holdet med at øge størrelsen af datasættet og opløsningen brugt til de følgende iterationer.
I den avancerede træningsfase begyndte Illustrious virkelig at blomstre. Version 1.0 udvidede datasættet til 10 millioner billeder og øgede opløsningen til 1536×1536.
Selvom de reducerede batchstørrelsen til 128, introducerede de sofistikerede tag-manipulationsstrategier og register-tokens, fundamentale ændringer der definerede modellens fremragende ydeevne.
Den endelige forBinsningsfase til version 2.0 gik et skridt længere. Ved at arbejde med 20 millioner billeder på samme høje opløsning, men med en større batchstørrel

Leave a Reply

Your email address will not be published. Required fields are marked *