Supervised Fine-Tuning: Hvornår skal man træne modellen — og hvornår skal man lade være?

Supervised Fine-Tuning (SFT) er blevet det nye buzzword i AI-verdenen. OpenAI, Mistral, Google og en håndfuld open source-platforme tilbyder nu alle at "træne din egen model" på dine data. Det lyder som den ultimative løsning: en AI der taler dit sprog, kender dit domæne og skriver i din tone.

Men SFT er ét værktøj ud af fire, og det er sjældent det første, man skal gribe til. I denne artikel gennemgår vi hele spektret – fra ren prompt engineering over RAG til SFT – og vi tilføjer en fjerde tilgang, som vi selv har udviklet hos broberg.ai: Trail, en compile-at-ingest videnmotor bygget på princippet vi kalder Compacting Neurons.

Hvad er Supervised Fine-Tuning egentlig?

SFT betyder, at man tager en eksisterende, færdigtrænet sprogmodel og træner den videre på sit eget datasæt af input/output-par. "Supervised" henviser til, at man viser modellen facit: sådan ser et spørgsmål ud, og sådan skal svaret se ud.

Resultatet er en model, hvor din viden, tone eller opgaveforståelse er bagt ind i selve vægtene. Modellen behøver ikke lange instruktioner eller opslag – den er blevet formet af dine eksempler.

I praksis bruger de fleste udbydere en teknik kaldet LoRA (Low-Rank Adaptation), hvor man ikke omtræner hele modellen, men kun en lille "adapter" ovenpå. Det gør træningen både hurtigere og markant billigere, og det er rigeligt til de fleste formål: tone-of-voice, faste formater, domænesprog og klassifikationsopgaver.

De fire tilgange – et overblik

Før man vælger SFT, bør man kende alternativerne. Vi ser dem som en trappe, hvor hvert trin koster mere i kompleksitet – og hvor man kun skal gå op ad trappen, hvis det forrige trin ikke slår til.

1. BASE: Prompt Engineering

Den simpleste tilgang er slet ikke at røre modellen. Man skriver i stedet en gennemarbejdet instruktion – en systemprompt – eventuelt med få eksempler (few-shot). Modellen er uændret; al skræddersyning ligger i konteksten.

Styrken er hastighed og fleksibilitet. Du kan ændre adfærd på fem minutter, skifte model uden at miste noget, og der er ingen træningsomkostninger overhovedet.

Svagheden er, at instruktionen skal sendes med i hver eneste forespørgsel. Ved høj volumen betaler du for de samme tusind tokens igen og igen, og modellen kan stadig "glemme" instruktioner i lange samtaler. Prompt engineering ændrer heller ikke, hvad modellen ved – kun hvordan den opfører sig.

2. RAG: Retrieval Augmented Generation

RAG løser videnproblemet ved at give modellen adgang til et opslagsværk. Dine dokumenter hakkes i bidder (chunks), omdannes til embeddings og lægges i en vektordatabase. Når brugeren stiller et spørgsmål, findes de mest "lignende" bidder, som klistres ind i prompten sammen med spørgsmålet.

Styrken er, at viden kan opdateres løbende uden at røre modellen, og at svarene kan henvise til kilder.

Svagheden er, at RAG i bund og grund er et gæt baseret på semantisk lighed. Chunking ødelægger sammenhæng – en sætning midt i et dokument mister sin kontekst. Vektorsøgning finder det der ligner spørgsmålet, ikke nødvendigvis det der besvarer det. Og hele pipelinen (embedding-model, vektordatabase, chunk-strategi, re-ranking) er et selvstændigt system, der skal driftes, tunes og betales for.

3. SFT: Supervised Fine-Tuning

Når hverken instruktioner eller opslag rækker, kan man forme selve modellen.

Styrken viser sig især tre steder. Ved høj volumen: en fine-tunet model behøver ikke en lang systemprompt, så du sparer tokens på hver eneste forespørgsel – ved hundredtusindvis af daglige kald bliver det til rigtige penge. Ved konsistent tone og format: modellen rammer stilen hver gang, uden at man skal minde den om det. Og ved smalle, gentagne opgaver som klassifikation, ekstraktion eller domænespecifik generering, hvor generelle modeller konsekvent rammer forbi.

Svagheden er, at viden bliver frosset fast. Ændrer dit domæne sig, skal du træne igen. Fine-tuning kræver et kurateret datasæt – typisk hundredvis af rene eksempler, og datakurateringen er ofte den skjulte omkostning. Og vigtigst: SFT lærer modellen mønstre, ikke fakta. Den er glimrende til at lære en model at skrive som dig, men upålidelig til at lære den hvad du ved – der begynder den at gætte selvsikkert.

4. Trail: Compacting Neurons

Hos broberg.ai arbejder vi med en fjerde vej, som angriber problemet fra en anden vinkel end både RAG og SFT: Trail – en compile-at-ingest videnmotor.

Hvor RAG udskyder alt arbejdet til forespørgselstidspunktet ("find noget der ligner, og håb det passer"), og SFT bager viden statisk ind i modelvægte, gør Trail arbejdet når viden ankommer. Hver gang et dokument, en mail, et mødenotat eller en artikel indtages, kompileres den: essensen destilleres, fakta struktureres, og der bygges typede relationer til den viden, der allerede findes. Det er dét, vi kalder Compacting Neurons – viden komprimeres til tætte, forbundne enheder frem for at ligge som rå tekstbidder i en vektordatabase.

Konsekvenserne er markante:

Ingen embeddings, ingen vektordatabase. Trail bruger klassisk fuldtekstsøgning kombineret med et typet graf-lag. Det betyder deterministiske, forklarlige opslag – man kan altid se hvorfor et stykke viden blev fundet, og hvor det kommer fra. Proveniens er indbygget, ikke påklistret.

Levende viden. I modsætning til SFT fryses intet fast. Ny viden kompileres ind løbende og forbindes automatisk med det eksisterende. Forældet viden kan erstattes eller markeres – uden gentræning.

Kuratering ved kilden. Fordi kompileringen sker ved indtag, sker kvalitetsarbejdet ét sted og én gang. RAG-systemer betaler derimod for embedding og re-ranking af det samme rå materiale ved hver eneste forespørgsel.

Sammenligning

	Prompt Engineering	RAG	SFT	Trail
Ændrer modellen?	Nej	Nej	Ja (vægte)	Nej
Viden kan opdateres	Øjeblikkeligt	Løbende	Kræver gentræning	Løbende (kompileres ved indtag)
Bedst til	Adfærd og hurtige eksperimenter	Opslag i store, rå dokumentmængder	Tone, format, smalle opgaver i høj volumen	Kurateret, forbundet viden med proveniens
Forklarlighed	Høj	Lav (semantisk gæt)	Lav (sort boks)	Høj (typede relationer, kildespor)
Startomkostning	Minimal	Middel (pipeline + vektordb)	Høj (datasæt + træning)	Middel (kompilering ved indtag)
Løbende omkostning	Tokens pr. kald	Embedding + søgning pr. kald	Lav pr. kald, gentræning ved ændringer	Lav (arbejdet er gjort ved indtag)

Vores anbefaling: gå trappen op – ikke ned

Start altid med prompt engineering. Det løser flere problemer, end de fleste tror, og det koster ingenting at prøve.

Hvis problemet er viden – modellen skal kende jeres dokumenter, kunder eller historik – så er svaret et videnlag, ikke træning. Her er spørgsmålet, om jeres behov er rå søgning i store dokumentmængder (RAG) eller kurateret, forbundet viden med sporbarhed (Trail). Vores erfaring er, at langt de fleste virksomhedscases i virkeligheden er det sidste: man vil ikke bare finde noget, man vil kunne stole på det og se, hvor det kommer fra.

Hvis problemet derimod er adfærd i skala – tusindvis af daglige kald, hvor tonen skal sidde i skabet, eller en smal opgave hvor generelle modeller fejler konsekvent – så er SFT det rigtige værktøj. Og med EU-baserede udbydere som Mistral, der tilbyder hosted fine-tuning med europæisk dataophold, behøver det hverken være dyrt eller compliance-tungt.

Den vigtigste pointe er, at de fire tilgange ikke udelukker hinanden. Den stærkeste arkitektur er ofte en kombination: en let fine-tunet model til tone og format, koblet på et Trail-videnlag for fakta og proveniens, styret af en stram prompt. Modellen ved hvordan den skal tale – videnlaget ved hvad der er sandt.

broberg.ai bygger AI-native værktøjer og infrastruktur fra Aalborg, Danmark. Trail er vores compile-at-ingest videnmotor – læs mere på trailmem.com.