Valg af AI-model til produkttekster: kvalitet vs pris (og hvorfor “billigst” ofte taber)

At vælge den rigtige AI-model til produkttekster og katalogindhold handler ikke om at finde “den bedste” model, men om at matche modelvalg med din risikoprofil, dine krav til tone, og dine omkostninger pr. 1.000 produkter. I denne guide får du en praktisk måde at sammenligne outputkvalitet, hallucination-risk, tone consistency og budget, så du kan træffe et valg, der holder i drift.

Du får også en simpel test-protokol, du kan køre på 20 produkter, før du låser dit setup. Målet er at give dig konkrete kriterier, målepunkter og faldgruber, så du undgår at skifte model i panik efter første batch eller at bruge for mange timer på manuel efterredigering.

Hvad betyder modelvalg, og hvorfor er det vigtigt?

En kort definition: Modelvalg er beslutningen om, hvilken AI-model (og tilhørende prompt- og dataopsætning) der skal producere dine produkttekster, kategoribeskrivelser eller attribut-berigelser. Det betyder noget, fordi modellen bestemmer, hvor præcist indholdet rammer produktdata, hvor stabil din tone er, og hvor mange fejl du skal rette manuelt.

Hvis du producerer i skala, bliver små forskelle store. En marginalt højere fejlrate kan blive til hundredevis af rettelser, og en lille prisforskel pr. tekst kan blive til en betydelig linjepost i dit budget. Mini-konklusion: Vælg model som en driftsbeslutning, ikke som en engangstest med ét “pænt” eksempel.

Outputkvalitet: sådan vurderer du, om teksten faktisk hjælper

Outputkvalitet er mere end flydende sprog. I produktindhold skal teksten være nyttig, specifik og loyal mod data. Det er især vigtigt i e-handel, hvor fejl kan give returneringer, supporttickets eller brud på markedsføringsregler.

Fem signaler på høj kvalitet

Datatrofasthed: Teksten bruger kun features og specifikationer, der findes i dit feed.
Relevans: Den fremhæver det, kunder faktisk spørger om (størrelse, materialer, kompatibilitet, vedligehold).
Differentiering: Den lyder ikke som en generisk skabelon, men spejler produktets særlige egenskaber.
Læsbarhed: Korte sætninger, klar struktur og få overflødige fyldord.
SEO-intent match: Den rammer søgeintention uden at overfylde med nøgleord.

En enkel kvalitetsscore du kan bruge

Giv hver tekst 0–2 point på: datatrofasthed, relevans, klarhed, købsargumenter og compliance. Maks 10 point pr. produkt. Du kan dermed sammenligne modeller på tværs af 20 produkter uden at drukne i subjektive mavefornemmelser.

Mini-konklusion: En model, der skriver “flot”, men ikke kan holde sig til dine specifikationer, er dyrere end den ser ud, fordi den flytter arbejdet til redigering.

Hallucination-risk: når modellen opfinder detaljer

Hallucination-risk er sandsynligheden for, at modellen tilføjer påstande, specifikationer eller fordele, som ikke er dokumenteret i dine data. I produkttekster ses det ofte som opfundne materialer, forkerte mål, “passer til alle” eller ubegrundede superlativer.

Typiske årsager til hallucinationer

For få felter i produktdata, så modellen “udfylder huller”.
For brede prompts, der inviterer til kreativitet.
Manglende regler for, hvad der må antages, og hvad der skal udelades.
Uklarhed om målgruppe eller brugsscenarie, så modellen gætter.

Sådan reducerer du risikoen i praksis

Start med at definere “sandhedskilder”: titel, brand, attributter, manualer og godkendte claims. Indfør derefter hårde instruktioner som: “Hvis data mangler, skriv ikke en specifik værdi.” Brug også et krav om at nævne usikkerhed neutralt, fx “kommer i flere varianter” i stedet for at gætte en farve.

Mini-konklusion: Den bedste model er ofte den, der siger mindre, men siger det rigtigt, især når du skalerer til mange SKU’er.

Tone consistency: hvorfor ensartethed slår “kreativitet”

Tone consistency er, hvor stabilt modellen rammer din brandstemme på tværs af hundredevis af produkter. Uens tone kan få et katalog til at virke rodet: nogle tekster lyder tekniske, andre over-sælgende, og andre igen som om de er skrevet til en helt anden målgruppe.

Definér tone som regler, ikke følelser

Beskriv tonen som konkrete valg: du-form eller De-form, længdeinterval, om du bruger punktlister, og hvilke ord du undgår. Angiv også en “stopliste” for klichéer og vage fraser. Hvis du vil have en *nordisk, enkel* stil, så sig: korte sætninger, få adjektiver, fokus på funktion.

Test for drift, ikke for show

Mange vælger model ud fra et enkelt hero-produkt. Det er en klassisk faldgrube. Test i stedet på en blanding: højpris, lavpris, teknisk, fashion, og produkter med manglende data. Det afslører, om modellen holder tonen, når den bliver presset.

Mini-konklusion: Når tone er stabil, kan du optimere SEO, konvertering og compliance med små justeringer, uden at alt ændrer sig fra tekst til tekst.

Cost-per-1.000 produkter: regn på totalen, ikke kun tokens

Omkostning pr. 1.000 produkter er summen af modelpris, prompt-længde, eventuel retrieval, og især efterredigering. Mange undervurderer, at redigering ofte er den dyreste del, hvis hallucinationer eller tonebrud kræver manuel gennemgang.

Din basisformel kan være: (modelomkostning pr. tekst + driftsomkostning pr. tekst + redigeringstid i kr.) × 1.000. I praksis bør du måle redigeringstid på et sample, fordi den varierer markant mellem modeller og kategorier.

Hvis du vil sammenligne setups hurtigt, så brug et fælles regneark og vægt kvalitet højt. Et sted at starte, når du sammenligner muligheder og niveauer, er at vælg AI model til produkttekster ud fra både pris og den forventede mængde efterarbejde, ikke kun listeprisen.

Mini-konklusion: Den billigste model pr. output kan være den dyreste pr. 1.000 produkter, hvis den kræver tung QA.

En simpel test-protokol på 20 produkter før du vælger setup

Du behøver ikke en stor pilot for at få klare signaler. En test på 20 produkter, valgt strategisk, kan give dig en robust beslutning, hvis du scorer konsekvent og tester de samme krav på tværs af modeller.

Trin-for-trin protokol

Udvælg 20 produkter: 5 “nemme”, 10 “typiske”, 5 “svære” (manglende data, mange varianter, høj compliance-risiko).
Frys input: samme felter, samme rækkefølge, samme sprog, samme enheder.
Definér outputformat: længde, overskrifter, bullets, CTA-niveau, og forbudte påstande.
Kør to varianter pr. model: en standardprompt og en “stram” prompt med databegrænsninger.
Score hver tekst 0–10 på kvalitet (som tidligere), og noter hallucinationer separat.
Mål redigeringstid pr. tekst med stopur på 5 tilfældige produkter pr. model.
Opsummer: gennemsnitsscore, fejlrate, median redigeringstid, og samlet cost-per-1.000.

Hvad du skal logge, så du kan sammenligne retfærdigt

Antal faktuelle fejl pr. tekst.
Antal tonebrud (fx “du” skifter til “De”, eller pludselig slang).
Andel tekster der kræver omskrivning vs. små rettelser.
Ordlængde og strukturafvigelser fra dit ønskede format.
Eventuelle compliance-problemer (garantier, medicinske claims, “bedst i test”).

Mini-konklusion: Når du tester ensartet, bliver modelvalget en beslutning baseret på data, ikke på mavefornemmelse.

Faldgruber og bedste praksis ved skalering

Den mest almindelige fejl er at skifte model eller prompt, hver gang du ser en dårlig tekst, uden at have et system. Det skaber et katalog med blandet stil og varierende kvalitet, som er svært at vedligeholde. En anden fejl er at lade modellen “opfinde” værdier for at gøre teksten komplet.

Undgå disse klassiske faldgruber

Uklare krav: Hvis du ikke kan forklare, hvordan en god tekst ser ud, kan modellen heller ikke.
For meget kreativ frihed: Det øger hallucination-risk og brandafvigelser.
Ingen QA-lag: Manglende stikprøver betyder, at fejl når ud i produktion.
Ignorerede edge cases: Produkter med varianter og manglende data kræver særregler.

Bedste praksis, der giver ro i drift

Hold et “prompt-bibliotek” med versionering, så du kan rulle tilbage. Brug faste skabeloner pr. kategori, så modellen får tydelig kontekst. Indfør et minimum af datavalidering før generering, og et simpelt QA-flow efter, fx 5% stikprøve plus automatisk kontrol af enheder og forbudte ord.

Mini-konklusion: Skalerbar kvalitet kommer fra processer, ikke fra at håbe på, at modellen altid rammer rigtigt.

Sådan vælger du dit endelige setup: en pragmatisk beslutningsramme

Når du har dine testresultater, kan du vælge setup ud fra en afbalancering. Hvis du sælger produkter med høj risiko for fejlinformation, skal du vægte hallucination-risk og datatrofasthed højest. Hvis du har et stærkt brand og mange tekstflader, kan tone consistency være det vigtigste. Og hvis du arbejder med tusindvis af SKU’er, vil cost-per-1.000 produkter ofte afgøre, om projektet er bæredygtigt.

Brug en simpel vægtning: 40% kvalitet, 30% hallucination-risk, 20% tone consistency, 10% omkostning. Justér efter branche. Det afgørende er, at du vælger én model som standard og kun bruger en anden som undtagelse, fx til særligt tekniske kategorier.

Mini-konklusion: Et godt modelvalg er det, der giver stabilt output, lav fejlrate og forudsigelige omkostninger, selv når kataloget ændrer sig uge for uge.