Min AI lavede et falsk billede — og sendte det som om det var ægte

Klokken var lidt over 22 i aftes. Jeg havde bedt vores AI om et simpelt screenshot — bare vis mig hvor knappen sidder. Den kunne ikke få det ægte billede til at virke, så den byggede sit eget i stedet, med generiske ikoner, og sendte det til mig som om det var min rigtige admin-skærm.

Jeg faldt for det i cirka tredive sekunder.

Beviset, ubehandlet

Her er de to billeder, præcis som de landede i vores samtale — ingen efterbehandling.

AI-genereret mockup, sendt som om det var et ægte screenshot af cms-admin

Dette er IKKE et screenshot. Det er en HTML-fil AI'en selv byggede med Lucide-lignende ikoner, fordi den ikke kunne logge ind og tage et rigtigt billede. Den blev sendt til mig med teksten: "øje-ikonet (Preview) og blyanten (Redigér live) sidder lige ved siden af hinanden øverst i dokument-editoren."

Det faktiske screenshot af værktøjslinjen i cms-admin

Dette er det ægte screenshot, jeg selv tog to minutter senere. Intet øje. Ingen blyant. De findes ikke i den visning.

Forskellen er ikke subtil. Den ene har afrundede kort, bløde skygger og pæne labels under hvert ikon — en slags Bambi-udgave af vores rigtige, mere kantede admin-UI. Den anden er den faktiske skærm. Havde jeg ikke haft det rigtige screenshot at holde op imod, havde jeg troet på den første.

Hvorfor gjorde den det?

Ikke fordi den er "ond" eller bevidst manipulerende i menneskelig forstand. Den gjorde det, fordi den — ligesom stort set alle sprogmodeller trænet med menneskelig feedback i dag — er optimeret til at gøre brugeren tilfreds i NUET, fremfor at levere ubehagelig præcision. "Jeg kan ikke skaffe et ægte screenshot lige nu" er et mindre tilfredsstillende svar end et flot billede med en selvsikker forklaring. Så den valgte det flotte billede.

Det er ikke en enlig svipser. Det er et navngivet, velbeskrevet fænomen i AI-forskningen: sycophancy — tendensen til at skræddersy svaret efter hvad modellen forudsiger, at brugeren vil høre, fremfor hvad der er sandt.

Anthropic — firmaet bag den model, der lavede fejlen i aftes — har selv forsket grundigt i det. Deres paper "Towards Understanding Sycophancy in Language Models" (2023, opdateret maj 2025) fandt, at modellernes svar var næsten 50% mere sycophantiske end menneskers egne svar i sammenlignelige situationer — og at brugere faktisk foretrak og stolede mere på de sycophantiske svar, selv når de var forkerte. Det skaber et decideret økonomisk incitament for AI-udviklere til at bevare adfærden: brugerne belønner den.

Mekanismen bag er ret simpel, når man ser den udefra: modeller trænes ved at mennesker rangerer svar — og et flydende, selvsikkert og venligt svar vinder oftere over et ærligt "det ved jeg faktisk ikke," fordi den menneskelige bedømmer sjældent når at faktatjekke i farten. Modellen lærer altså ikke at være ærlig — den lærer at virke tilfredsstillende.

Og det stopper ikke ved pæne mockup-billeder. Et Stanford-studie fra 2024 fandt, at sprogmodeller hallucinerede i mindst 75% af tilfældene, når de blev spurgt om amerikanske retsafgørelser — og opfandt over 120 ikke-eksisterende retssager med overbevisende, realistiske navne. Domstole har siden håndteret hundredvis af sager i 2025, hvor dommere måtte idømme sanktioner for AI-genererede fupcitationer i juridiske dokumenter. Selv i topvidenskabelige sammenhænge sker det: en analyse af 4.841 artikler accepteret til NeurIPS 2025 — AI-forskningens fineste konference — fandt mindst 100 bekræftede hallucinerede citater fordelt på 53 artikler, på trods af grundig peer review.

Pointen er ikke, at AI er ubrugeligt. Pointen er, at et selvsikkert, flydende og overbevisende svar ikke er det samme som et sandt svar — og at AI-modeller strukturelt set er bygget til at optimere for det første, ikke automatisk det andet.

Hvorfor det betyder noget for dig

Vi bygger stort set alt hos WebHouse med AI i førersædet — Claude Code er vores primære værktøj, og vi er store fans af det. Men "AI i førersædet" er netop hvorfor der ALTID sidder en menneskelig orkestrator og kurator ved rattet — en, der stiller det ubehagelige opfølgningsspørgsmål: "Hvor har du det billede fra?"

I aftes virkede det. Ikke fordi AI'en blev fanget af et automatisk system, men fordi et menneske kiggede på to billeder ved siden af hinanden og sagde: "Det her stemmer ikke." Det er præcis den kombination, der skal til — AI'ens hastighed og rækkevidde, plus et menneskes sunde skepsis og vilje til at kræve beviser i stedet for at tage ordet for gode varer.

Vi bygger da også egne rækværker ind i vores egen proces for at gøre den slags sjældnere — faste regler om, at intet må kaldes "verificeret" uden et rigtigt bevis (en curl, et rigtigt screenshot, en kørende test), aldrig et flueben på noget der ikke reelt er testet. Men rækværk er ikke det samme som en garanti. Sprogmodellernes hang til at ville gøre os glade er strukturel — den forsvinder ikke af sig selv, uanset hvor god modellen bliver. Det eneste, der for alvor fanger den, er en kurator, der insisterer på at se det ægte billede.

Så: stol på din AI. Men bed altid om det ægte screenshot.

Kilder:

Anthropic — Towards Understanding Sycophancy in Language Models
Anthropic — Sycophancy to Subterfuge: Investigating Reward Tampering
Stanford Law School — 2024-studie om AI-hallucination i juridisk research
GPTZero-analyse af hallucinerede citater i NeurIPS 2025-artikler