Lokal AI-server
Oppdatert: februar 2026 · 7 min lesetid
En lokal AI-server for SMB handler om én ting: nok GPU-VRAM til modellen du vil kjøre. En 7B-modell i Q4 trenger ca. 5 GB VRAM – en Tesla T4 (16 GB, 70 W) håndterer dette greit. For 70B-modeller trengs 40+ GB VRAM og flere GPU-er. Start med Ollama på Proxmox, og skaler når behovet vokser.
Skytjenester som OpenAI og Anthropic fungerer for de fleste. Men noen SMB-er vil kjøre AI lokalt – for personvern, forutsigbare kostnader eller fordi dataene ikke kan forlate bygget. En brukt enterprise-server med riktig GPU gir deg dette for en brøkdel av skykostnadene over tid.
Hvorfor lokal AI?
Personvern: Data forlater aldri nettverket. Relevant for helsevesen, jus, finans og alle som håndterer sensitiv informasjon.
Forutsigbare kostnader: Ingen token-basert fakturering. Etter maskinvarekjøpet er driftskostnaden strøm. En Tesla T4 på 70 W koster ca. 600 kr/år i strøm.
Tilgjengelighet: Fungerer uten internett. Ingen API-nedetid, ingen rate limits.
Ærlig vurdering: Lokale modeller er ikke like gode som de største skymodellene. En 7B-modell gir brukbar kvalitet for oppsummering, søk i dokumenter og enkel assistanse. For kompleks resonnering og kreativ skriving er skymodeller fortsatt overlegne.
VRAM: den kritiske ressursen
VRAM (Video RAM) avgjør hvilke modeller du kan kjøre. Hele modellen må få plass i GPU-minnet for god ytelse. Kvantisering (Q4, Q8) komprimerer modellen slik at den bruker mindre VRAM – med et lite tap i kvalitet.
| Modell | Q4 (4-bit) | Q8 (8-bit) | FP16 |
|---|---|---|---|
| Phi-3 Mini (3,8B) | ~2 GB | ~4 GB | ~8 GB |
| Mistral 7B | ~4 GB | ~7 GB | ~14 GB |
| Llama 3.1 8B | ~5 GB | ~9 GB | ~16 GB |
| Llama 3.1 70B | ~42 GB | ~75 GB | ~140 GB |
Tallene er for selve modellvektene. I tillegg trenger du VRAM til KV-cache (kontekstvindu). Med 8K kontekst: ca. 2,5 GB ekstra. Med 32K: ca. 10 GB. Regn med 20–30 % ekstra VRAM utover modellstørrelsen for å ha nok margin.
Forskjellen mellom Q4 og FP16 er liten for de fleste bruksområder (oppsummering, spørsmål-svar, dokumentsøk). Kvalitetstapet merkes først på komplekse resonneringsoppgaver. Start med Q4 – det halverer VRAM-kravet.
GPU-valg for inferens
For AI-inferens teller VRAM og minnebåndbredde mest. CUDA-kjerner er mindre viktig – inferens er i stor grad minnebundet.
| GPU | VRAM | Båndbredde | TDP | Vurdering |
|---|---|---|---|---|
| Tesla T4 | 16 GB GDDR6 | 320 GB/s | 70 W | Beste verdi. Passiv. |
| Tesla P40 | 24 GB GDDR5 | 347 GB/s | 250 W | Mer VRAM, men eldre. |
| Tesla A10 | 24 GB GDDR6 | 600 GB/s | 150 W | Rask. God balanse. |
| RTX A4000 | 16 GB GDDR6 | 448 GB/s | 140 W | Enkeltslot. Allsidig. |
| RTX A5000 | 24 GB GDDR6 | 768 GB/s | 230 W | Størst VRAM i klassen. |
Anbefaling: Tesla T4 er førstevalget for de fleste SMB-er. 16 GB VRAM dekker alle 7B-modeller i Q4/Q8 og de fleste 13B i Q4. Den trekker bare 70 W (passiv kjøling) og passer i alle rackmonterte servere uten ekstra strømkabler. På bruktmarkedet er prisen en brøkdel av nye kort med tilsvarende VRAM.
Trenger du større modeller (30B+), er Tesla P40 med 24 GB VRAM et rimelig alternativ – men eldre Pascal-arkitektur (mangler Tensor Cores), høyere strømforbruk (250 W). For best ytelse per watt med 24 GB: Tesla A10.
CPU, RAM og lagring
CPU: Mindre viktig enn GPU for inferens. En Xeon Gold med 16+ kjerner gir nok kapasitet for å mate GPU-en med data og kjøre støttetjenester. CPU-basert inferens (uten GPU) fungerer med llama.cpp, men er 3–10 ganger tregere.
System-RAM: Minst 1,5–2 ganger VRAM. Med en 16 GB GPU: minimum 32 GB system-RAM. Modellvektene lastes først til RAM før de overføres til GPU. For CPU-inferens må hele modellen ligge i RAM.
Lagring: Modellfilene er store (4–40 GB per modell). NVMe SSD gir raskere innlasting. Trenger du mange modeller tilgjengelig, regn med 200–500 GB for modellbiblioteket. En NVMe boot-disk pluss en SSD for modeller er et greit oppsett.
Programvare
Ollama er enkleste veien inn. Docker-lignende CLI som laster ned og kjører modeller med én kommando (ollama run llama3.1). Fungerer på Linux, Mac og Windows. Lite overhead, god for prototyping og små team.
Open WebUI gir en ChatGPT-lignende nettside foran Ollama. Installeres som Docker-container og gir ansatte en kjent, brukervennlig grenseflate for å snakke med modellen – uten CLI.
llama.cpp er den underliggende motoren i Ollama (og mange andre verktøy). Gir mest kontroll og støtter CPU-inferens uten GPU. Best for de som vil finjustere ytelse eller kjøre på uvanlig maskinvare.
vLLM er designet for produksjonsbruk med mange samtidige brukere. PagedAttention og kontinuerlig batching gir 2–4 ganger høyere gjennomstrømning i enkeltbruker-scenarier, og vesentlig mer med mange samtidige brukere enn Ollama på samme maskinvare. Riktig valg når du har en intern API med flere brukere.
Oppsett på Proxmox: Kjør inferens-programvaren i en VM med GPU-passthrough, eller i en LXC-container med GPU-binding. VM-en gir full isolering; containeren gir lavere overhead. Begge fungerer godt.
Konkrete bygg
Innstegsmodell – 7B-modeller (Q4/Q8):
En Dell R740 med dual Xeon Gold, 64 GB RAM, Tesla T4, NVMe boot-disk og en SATA SSD for modeller. Kjører Mistral 7B eller Llama 3.1 8B i Q4 med god margin. Ca. 30–40 tokens/sekund. Total maskinvarekostnad på bruktmarkedet: under halve nyprisen for en ny GPU alene.
Mellomklasse – 13B–30B-modeller:
Samme server med Tesla P40 (24 GB VRAM) eller RTX A5000. Kjører 13B-modeller i Q8 eller 30B i Q4. Upgrade RAM til 128 GB for å ha margin. NVMe for både boot og modeller.
Avansert – 70B-modeller:
Dell R7920 med plass til tre GPU-er. To eller tre GPU-er med 24 GB VRAM (A10 eller A5000) gir 48–72 GB total VRAM via tensor parallelism. Krever 256+ GB RAM og 10GbE for eventuell klynging. vLLM eller llama.cpp med multi-GPU-støtte.
Vanlige feil
For lite VRAM: Hvis modellen ikke får plass i GPU-minnet, offloades deler til CPU-RAM (eller verre: disk). Da kollapser ytelsen. Sjekk alltid VRAM-kravet før du velger GPU.
Feil GPU-generasjon: Eldre Kepler-kort (Tesla K80) støttes dårlig av moderne inferens-programvare. Minimum Pascal-generasjon (P40, P4000). Turing (T4) eller Ampere (A10, A4000) anbefales.
Undervurdert strømforbruk: En P40 trekker 250 W – på toppen av serverens eget forbruk. Sjekk at PSU-ene har nok kapasitet og at strømnettet i rommet tåler belastningen.
Ingen benchmark før kjøp: Tokens per sekund varierer mye mellom GPU-er og modeller. Kjør alltid en benchmark med din faktiske arbeidsbelastning før du investerer i maskinvare.
Axentra kan levere servere med Proxmox ferdig installert. Se GPU-utvalget og servere for AI.
Ofte stilte spørsmål
Kan jeg kjøre AI uten GPU – bare på CPU?
Ja, med llama.cpp. En 7B-modell i Q4 gir ca. 5–15 tokens/sekund på en Xeon Gold med 16 kjerner. Brukbart for asynkrone oppgaver (batch-prosessering), men for tregt for interaktiv bruk. GPU er sterkt anbefalt.
Hva er forskjellen på inferens og trening?
Inferens er å kjøre en ferdig modell – gi den input og få output. Trening er å lage eller finjustere modellen fra data. Trening krever 5–10 ganger mer VRAM og regnekraft. De fleste SMB-er trenger bare inferens.
Hvor mye VRAM trenger jeg for RAG (retrieval-augmented generation)?
RAG legger ikke til VRAM-behov utover modellen selv. Dokumentene lagres i en vektordatabase (på disk/RAM), og bare de relevante utdragene sendes til modellen som kontekst. Regn med modellens VRAM-krav pluss margin for KV-cache.
Kan flere brukere dele én GPU?
Ja, med Ollama eller vLLM. Forespørslene køes og prosesseres sekvensielt (Ollama) eller batches (vLLM). Med vLLM og en T4 kan 3–5 samtidige brukere få akseptabel responstid på en 7B-modell.
Hva med finjustering (fine-tuning) lokalt?
LoRA-finjustering på en 7B-modell krever ca. 12–16 GB VRAM. En T4 klarer dette så vidt for 7B. For større modeller trenger du 24+ GB. Full finjustering (ikke LoRA) krever enda mer og er sjelden praktisk for SMB.
Er Tesla K80 verdt det for AI?
Nei. K80 har Kepler-arkitektur (2014), dårlig støtte i moderne programvare, og bare 12 GB VRAM per GPU-die med lav båndbredde. En T4 er nyere, raskere, bruker mindre strøm og koster omtrent det samme på bruktmarkedet.
Trenger jeg 10GbE for AI-serveren?
Ikke for inferens alene – AI-trafikken er liten (tekst inn, tekst ut). Men hvis serveren også kjører andre VM-er, lagring eller backup, er 10GbE nyttig. For multi-GPU-klynger over flere servere er 10GbE+ et krav.
Neste steg
Bestem hvilken modellstørrelse du trenger (7B dekker de fleste oppgaver), velg en GPU med nok VRAM (Tesla T4 for 7B, P40 eller A10 for 13B+), og installer Ollama på Proxmox. Test med din faktiske arbeidsbelastning før du skalerer opp.