Hvor mye GPU trenger du for å trene en AI-modell?

Oppdatert: mars 2026 · 9 min lesetid

Kort oppsummert

GPU-behovet for AI-trening varierer enormt – fra én enkelt GPU for finjustering av en liten modell, til hundrevis av GPU-er for trening av store språkmodeller fra bunnen av. Det viktigste er ikke å finne den kraftigste GPU-en, men å matche GPU-minne, beregningsytelse og interconnect mot det du faktisk skal kjøre. De fleste bedrifter og forskningsgrupper trenger langt mindre enn de tror – spesielt når de starter med finjustering fremfor trening fra scratch.

Spørsmålet dukker opp i nesten alle samtaler om AI-infrastruktur: Hvor mye GPU trenger jeg egentlig? Svaret er sjelden enkelt, fordi det avhenger av hva slags modell du vil trene, hvor stor den er, hvor lang tid du har og hva budsjettet tillater.

Det er stor forskjell på å finjustere en eksisterende språkmodell og å trene en 70-milliarders-parametermodell fra grunnen av. Og det er like stor forskjell på å kjøre inferens og å kjøre aktiv trening. Denne guiden hjelper deg å finne ut hva som faktisk passer for ditt brukstilfelle – uten å overkjøpe.

Hva avgjør GPU-behovet?

Tre faktorer dominerer: modellstørrelse (antall parametere), treningstype (fra scratch eller finjustering) og tidskrav (hvor raskt du trenger resultater). GPU-minne setter en hard grense – modellen, gradienter og optimizer-tilstanden må få plass.

De viktigste faktorene er:

GPU-minne (VRAM) er ofte den harde begrensningen. Modellen, aktiveringsminnene, gradientene og optimizer-tilstanden (f.eks. Adam) må alle ligge i GPU-minnet under trening. En 7B-parametermodell i full FP32-presisjon krever rundt 28 GB bare for parameterne – uten gradienter og optimizer-overhead.

Beregningsytelse (FLOPS) avgjør hvor lang tid treningen tar. Jo høyere FLOPS, jo raskere itererer du. Men ytelse uten tilstrekkelig minne er verdiløst – modellen må faktisk få plass.

Interconnect-båndbredde er avgjørende når du kjører på flere GPU-er. Hvis GPU-ene kommuniserer treigt, vil mange GPU-er yte dårligere enn forventet. NVLink er vesentlig raskere enn PCIe for distribuert trening.

Datamengde og batch-størrelse påvirker minne og treningstid. Store batch-størrelser gir bedre GPU-utnyttelse, men krever mer minne.

Tommelfingerregel for minne:

Regn med at du trenger 2–4× modellstørrelsen i GPU-minne under trening i full presisjon. Med mixed precision (FP16/BF16) kan du ofte halvere minnebehovet for parameterne, men optimizer-tilstanden krever fortsatt full presisjon internt.

Finjustering vs. trening fra scratch

De aller fleste bedrifter og forskningsmiljøer bør starte med finjustering av eksisterende modeller – ikke trening fra scratch. Finjustering krever en brøkdel av GPU-ressursene og gir svært gode resultater for de fleste praktiske brukstilfeller.

Trening fra scratch er kun aktuelt når du trenger en modell som er fundamentalt forskjellig fra det som finnes, har spesielle krav til data-eierskap, eller opererer i en nisje der eksisterende modeller er dårlig egnet.

Treningstype Beskrivelse Typisk GPU-behov Egnet for
Inferens Kjøre en ferdig trent modell 1 GPU (24–80 GB) Produksjon, testing
Full finjustering Oppdatere alle parametere i en eksisterende modell 1–8 GPU (80 GB) Spesialisering av store modeller
Parameter-effektiv finjustering (LoRA/QLoRA) Trene kun et lite sett ekstra parametere 1–2 GPU (24–80 GB) Rask tilpasning, lavt budsjett
Trening fra scratch (liten modell, <1B) Trene en liten modell på egne data 1–4 GPU Domene-spesifikke oppgaver
Trening fra scratch (stor modell, 7B–70B+) Trene store språk- eller multimodale modeller 8–hundrevis av GPU-er Forskningslaboratorier, store AI-bedrifter

Metoder som LoRA (Low-Rank Adaptation) og QLoRA (kvantisert LoRA) har gjort finjustering dramatisk mer tilgjengelig. Med QLoRA kan du finjustere en 7B-modell på én enkelt GPU med 24 GB VRAM – noe som for få år siden ville krevd et helt GPU-cluster.

Modellstørrelse og GPU-minne

Modellstørrelse måles typisk i antall parametere. En parameter tilsvarer én flyttallsverdi – og det er minnebehovet som bestemmer om modellen i det hele tatt kan kjøres på den GPU-en du har tilgjengelig.

Modellstørrelse Minne (FP32) Minne (BF16/FP16) Minne under trening (BF16 + Adam) Minimum GPU
1B parametere ~4 GB ~2 GB ~16 GB 1× 24 GB GPU
7B parametere ~28 GB ~14 GB ~60–80 GB 1–2× 80 GB GPU
13B parametere ~52 GB ~26 GB ~100–130 GB 2–4× 80 GB GPU
70B parametere ~280 GB ~140 GB ~500–600 GB 8× 80 GB GPU (minimum)
405B+ parametere >1,6 TB >800 GB Flere TB Multi-node cluster

Tallene over er estimater for full finjustering med Adam optimizer. I praksis varierer behovet med batch-størrelse, sekvenslengde og hvilke optimaliseringsteknikker du bruker (gradient checkpointing, mixed precision, ZeRO-optimering osv.).

Minnebehov per modellstørrelse for AI-trening – FP32, BF16, Adam optimizer og QLoRA
Fra 1B til 405B: slik eskalerer VRAM-behovet med presisjon, gradienter og optimizer
Gradient checkpointing:

En teknikk som bytter beregningstid mot minnebruk – aktiveringsminner lagres ikke for alle lag, men reberegnes under bakover-passet. Dette kan halvere minnebehovet under trening på bekostning av ~20–30% lengre treningstid. Svært nyttig når minnet er knapt.

Én GPU eller flere?

Start med én GPU hvis modellen og dataene får plass. Multi-GPU-oppsett introduserer kompleksitet og overhead – det er kun verdt det når ett enkelt kort ikke er tilstrekkelig, eller når du trenger å redusere treningstid betydelig.

Når trenger du flere GPU-er?

Modellen er for stor for én GPU. Modellparallellisme fordeler modellen på tvers av GPU-er. Nødvendig for modeller som ikke får plass i én GPU sitt minne, uavhengig av batch-størrelse.

Du vil redusere treningstid drastisk. Data-parallellisme kjører identiske modellkopier på hver GPU og aggregerer gradienter. Lineær skalering er urealistisk (kommunikasjonsoverhead), men 4–8 GPU-er kan gi 3–6× raskere trening i praksis.

Du trener regelmessig og iterasjonshastighet har direkte verdi. Forskningslaboratorier og AI-startups med korte iterasjonssykluser tjener på raskere trening – feil korrigeres tidligere, og flere eksperimenter kan kjøres parallelt.

NVLink vs PCIe for multi-GPU:

I et PCIe-oppsett er GPU-kommunikasjonsbåndbredden typisk 16–32 GB/s per retning. Med NVLink (i HGX-plattformer) er båndbredden 600–900 GB/s. For modeller som kommuniserer mye mellom GPU-er – særlig ved modellparallellisme – er denne forskjellen avgjørende for faktisk ytelse.

GPU-anbefalinger per brukstilfelle

Riktig GPU avhenger av hva du skal gjøre. Her er praktiske anbefalinger basert på de vanligste scenariene:

Brukstilfelle Anbefalt GPU-oppsett Merknad
QLoRA-finjustering av 7B-modell 1× A100 40 GB eller A100 80 GB 24 GB kan holde med QLoRA, men 40–80 GB gir mer komfortabel margin
Full finjustering av 7B-modell 1–2× A100 80 GB Gradient checkpointing anbefales
Full finjustering av 13B-modell 2–4× A100 80 GB NVLink-oppsett gir vesentlig bedre ytelse
Full finjustering av 70B-modell 8× H100 80 GB (HGX) Krever NVLink; PCIe-oppsett vil være svært tregt
Inferens, 7B–13B modeller 1× A100 40 GB Svært kostnadseffektivt; A100 gir høy inferens-throughput
Inferens, 70B+ modeller 2–4× A100 80 GB eller 1–2× H100 80 GB Vurder kvantisering (INT8/INT4) for å halvere minnebehovet
Trening fra scratch, liten modell (<1B) 1–2× A100 40 GB God balanse mellom pris og ytelse
Trening fra scratch, stor modell (7B+) 8× H100 80 GB eller multi-node A100-cluster Krever dedikert infrastruktur og nettverksoppsett
GPU-anbefalinger for finjustering, inferens og trening av AI-modeller
Fra inferens til storskala trening – GPU-behovet eskalerer med modellstørrelse og treningstype

Tidsbruk og kostnad

Mer GPU-kraft betyr kortere treningstid – men ikke nødvendigvis lavere totalkostnad. Det avhenger av om du eier eller leier, og hvor mye tid som faktisk spares.

Som referansepunkt: finjustering av en 7B-modell på et datasett av moderat størrelse (noen millioner tokens) tar typisk 4–12 timer på én A100 80 GB. Den samme jobben på to A100-er tar halvparten, men med kommunikasjonsoverhead ender det gjerne på 60–70% raskere.

Eie vs. leie: Skytjenester som AWS, Azure og Google Cloud tilbyr GPU-leie uten bindingstid. Dette er fornuftig for eksperimentering og sporadisk bruk. For faste, regelmessige arbeidsbelastninger er det som regel billigere å eie egne GPU-er over tid – spesielt hvis man kan bruke rekondisjonerte enterprise-servere med A100.

Rekondisjonert hardware: A100-servere tilgjengelig som rekondisjonert enterprise-hardware representerer noen av markedets beste pris-ytelse-forhold for AI-trening. En 8× A100 80 GB HGX-server brukt er vesentlig rimeligere enn ny, og ytelsen er identisk.

Regnestykket:

Sammenlign kostnad per GPU-time ved skyleie mot amortisert kostnad per time ved kjøp. For arbeidsbelastninger som kjører mer enn 500–1000 timer i året er eierskap som regel billigere – selv medregnet strøm, rack og vedlikehold.

Hvem trenger hva?

Startups og SMB som vil tilpasse eksisterende modeller: Start med 1–2 GPU-er med 40–80 GB VRAM. En enkelt A100 80 GB dekker det meste av finjustering opp til 13B-modeller med effektive teknikker. Det er ikke nødvendig å bygge et cluster fra dag én.

Forskningsmiljøer og universiteter: Trenger typisk 4–8 GPU-er for å kjøre parallelle eksperimenter og trene modeller av moderat størrelse. En 4× A100-node gir god fleksibilitet og kan også dele arbeidslast mellom flere prosjekter.

Bedrifter med løpende AI-produksjon: Inferensnoder med 1–2 GPU-er per instans, gjerne A100 40 GB for kostnadseffektiv skalerbarhet. Separate noder for trening og inferens er vanlig i produksjonsoppsett.

AI-laboratorier og selskaper som trener store modeller: Trenger dedikerte multi-GPU- eller multi-node-cluster med H100 og NVLink. Dette er et annet budsjett- og infrastrukturnivå enn de fleste.

Axentra:

Axentra leverer GPU-servere og enkeltort tilpasset ulike AI-arbeidslaster. For kostnadseffektiv finjustering og inferens er NVIDIA A100 40GB PCIe og NVIDIA A100 80GB PCIe solide valg. For tunge treningsjobber og maksimal ytelse tilbyr vi komplette Dell AI-servere med 8× A100 og 8× H100. Kontakt oss for hjelp til å dimensjonere riktig oppsett.

Ofte stilte spørsmål

Kan jeg trene AI-modeller på en vanlig forbrukergpu?

Ja, for mindre modeller og eksperimentering. Forbruker-GPU-er som RTX 4090 (24 GB VRAM) er populære for QLoRA-finjustering av modeller opp til 7B. For produksjon og større modeller er enterprise-GPU-er med 40–80 GB VRAM langt mer praktiske og støtter funksjoner som ECC-minne og høyere båndbredde.

Hva er forskjellen på GPU-minne og systemminne (RAM)?

GPU-minnet (VRAM) er der modellen, gradientene og aktiveringsminnene lever under trening. Det er vesentlig raskere enn systemminne, men mye dyrere og begrenset i mengde. Systemminnet brukes til å holde datasett og mellomlagre data som mates til GPU-en. Begge deler er viktige, men VRAM er den harde begrensningen for hvilke modeller som kan kjøres.

Hva er LoRA og QLoRA, og hjelper de på GPU-behovet?

LoRA (Low-Rank Adaptation) finjusterer kun et lite sett lavrangs-matriser i stedet for alle modellvekter, noe som dramatisk reduserer minnebehovet og treningstiden. QLoRA kombinerer LoRA med 4-bits kvantisering av basemodellen, og gjør det mulig å finjustere en 7B-modell på én enkelt GPU med 24 GB VRAM. Kvalitetstapet er typisk minimalt for de fleste praktiske brukstilfeller.

Er det bedre å kjøpe én kraftig GPU eller flere mindre?

For de fleste er én kraftig GPU med mye VRAM enklere og mer effektivt enn flere mindre. Multi-GPU-oppsett introduserer kommunikasjonsoverhead og krever mer kompleks konfigurering. Gå for to GPU-er når modellen ikke får plass i én, eller når du trenger å halvere treningstiden og kommunikasjonskostnaden er akseptabel.

Trenger jeg NVLink for finjustering på 2–4 GPU-er?

Ikke nødvendigvis. For data-parallell finjustering der modellen får plass på én GPU, er PCIe-kommunikasjon ofte tilstrekkelig. NVLink blir avgjørende ved modellparallellisme – der modellen deles på tvers av GPU-er og hyppig kommunikasjon er nødvendig. Sjekk om arbeidslasten din faktisk krever modellparallellisme før du investerer i HGX-plattform.

Hvor lang tid tar det å finjustere en 7B-modell?

Det varierer med datasettets størrelse, antall epoker og batch-størrelse. Som referanse: finjustering av Llama-3 7B på et datasett med én million tokens tar typisk 2–6 timer på én A100 80 GB. Med to A100-er kan du forvente rundt 60–70% kortere treningstid. QLoRA er typisk 2–3× raskere enn full finjustering for tilsvarende datasett.

Kan jeg bruke rekondisjonerte GPU-servere til seriøs AI-trening?

Ja. Enterprise-GPU-er som A100 er bygget for kontinuerlig drift og tåler rekondisjonering godt. En rekondisjonert A100-server fra en seriøs aktør som tester grundig gir identisk ytelse som ny – til betydelig lavere pris. Det er ingen ytelsesforskjell mellom ny og rekondisjonert hardware så lenge den er grundig testet.

Neste steg

Hvis du vurderer GPU-er til AI-trening, bør du ikke bare sammenligne modellnavn og VRAM-tall. Se på hele arbeidslasten: modellstørrelse, treningstype, batch-behov og hvor ofte du faktisk kjører trening. Det er ofte forskjellen på et smart kjøp og en dyr feilinvestering.

Axentra leverer både GPU-kort og komplette AI-servere med A100 og H100. Kontakt Axentra hvis du vil ha hjelp til å finne riktig løsning for trening, finjustering eller inferens.