Pas op: AI-prompts verouderen sneller dan je denkt — 7 patronen die kapot gaan bij elke modelupgrade

JumpScale
Ai
14 mei 2026

Jouw AI-investering veroudert sneller dan je denkt. Niet omdat de techniek hapert, maar omdat de prompts die je vandaag opstelt soms tegen je gaan werken op het model van morgen. We hebben de wetenschap, de model-providers zelf en concrete productie-cases naast elkaar gelegd. Hieronder: zeven patronen die hun houdbaarheidsdatum hebben, en hoe je je AI-investering toekomstbestendig maakt.

Inhoudsopgave

Stel: je klantenservice-bot werkt al maanden vlekkeloos. Klanten zijn tevreden, het scheelt fte’s. Dan komt er een nieuwe versie van het model. Op papier krachtiger, sneller, goedkoper. Twee weken later staat de teamleider klantenservice op je deurmat: de bot wijkt af van het script, beantwoordt vragen die hij niet zou moeten beantwoorden, en negeert juist de instructies waar het wél om gaat.

Geen hypothetisch scenario. Dit gebeurt zodra de prompts die voor de oude modelversie geschreven zijn, de nieuwe versie in de weg gaan zitten.

TL;DR

Modelupgrades breken prompts via twee tegengestelde mechanismen: het model neemt te veel zelf de regie, óf het wordt juist té letterlijk
Zeven prompt-patronen die ooit best practice waren, werken nu averechts op moderne reasoning-modellen
De duurzame strategie is niet “betere prompts” maar stabiele specificaties, automatische evals, en gepinde modelversies — zodat je weet wanneer iets breekt

Waarom prompts kapot gaan bij een modelupgrade

Bij nieuwe generaties drijven moderne LLM’s in twee tegengestelde richtingen — afhankelijk van de model-provider:

Inference creep — Het nieuwe model neemt steeds meer zelf de regie en overschrijft jouw grenzen met eigen oordeel. Anthropic erkende dit bij de overgang naar Claude Sonnet 4 en 4.5: instructies als “ALWAYS doe X” werden door het model heroverwogen onder de noemer “wil de gebruiker dit echt in deze context?”

Literalism shock — Het tegenovergestelde patroon. OpenAI schrijft het zelf in haar Cookbook over de GPT-4o naar GPT-4.1-overgang: “GPT-4.1 is trained to follow instructions more closely and more literally than its predecessors… we expect that getting the most out of this model will require some prompt migration.” Een instructie als “je moet altijd een tool aanroepen” leidde bij GPT-4o tot een verstandige vervolgvraag als de informatie ontbrak. GPT-4.1 hallucineerde gewoon een tool-call met lege parameters.

Een future-proof prompt moet tegen beide richtingen kunnen. Dat is een hogere lat dan de meeste prompts halen.

7 prompt-patronen die hun houdbaarheidsdatum hebben

#	Patroon	Waarom broos op moderne modellen	Wat doe je dan wel
1	`"Think step by step"` als instructie	Reasoning-modellen (o1, o3, Claude met thinking) doen dit vanzelf — expliciete CoT kan prestaties juist ondermijnen	Geef het doel, laat het model bepalen of het stapsgewijs redeneert
2	`"You are an expert X"` rolprompts	Onderzoek bij 162 persona’s en 2.410 vragen toont géén gemiddelde verbetering — soms zelfs minder accurate antwoorden	Beschrijf de taakcontext, niet een rol
3	5+ few-shot voorbeelden	Sterke modellen raken verankerd aan je voorbeelden en verkennen de oplossingsruimte minder	Maximaal 1-2 voorbeelden, divers gekozen
4	Strikte JSON afdwingen tijdens redeneren	Structuurdwang concurreert met denken — meetbaar prestatieverlies van 10-15% op redeneer-taken	Twee stappen: eerst vrij redeneren, dan apart formatteren
5	`temperature=0` voor “determinisme”	Anthropic Opus 4.7 weigert dit met HTTP 400. Google Gemini 3 raakt in een loop onder de default	Standaardwaarde gebruiken; consistentie afdwingen via je prompt
6	`"NEVER doe X"` negatieve instructies	Sterke modellen interpreteren negaties soms tegenovergesteld; positieve instructies generaliseren beter	Schrijf wat het model wél moet doen, mét uitleg waarom
7	De 2000-token monsterprompt	“God Object”-prompts: één wijziging veroorzaakt regressie op andere taken. Voiceflow zag 10% prestatieverlies bij modelmigratie	Splits op in modulaire prompts met eigen evals

Drie patronen uitgelicht — waarom uitgerekend deze

1. Chain-of-thought is bijna gratis geworden — en daarmee bijna waardeloos

Het Wharton Generative AI Lab mat recent de afnemende waarde van chain-of-thought prompting op moderne reasoning-modellen. Op o3-mini en o4-mini leverde “think step by step” nog maar 2,9 tot 3,1 procent accuracy-winst op — tegen 20 tot 80 procent langere responstijd en hogere kosten.

Anders gezegd: je betaalt vier keer zoveel rekentijd voor een marginaal beter antwoord. Op specifieke taaktypen — denk aan impliciet statistisch redeneren — kan expliciete CoT de prestaties zelfs met 36 procentpunt verslechteren.

Het patroon dat in 2023 de gouden standaard was, is in 2026 een rem op snelheid zonder dat er kwaliteit tegenover staat.

2. “You are an expert X” werkt al sinds 2024 niet meer

Zheng et al. (EMNLP 2024) testten in een grootschalig onderzoek 162 verschillende persona’s — van “je bent een advocaat” tot “je bent een topwetenschapper” — verspreid over 2.410 feitelijke vragen en vier modelfamilies. De conclusie: geen meetbare verbetering ten opzichte van een neutraal systeemprompt. Op redeneer-taken liet vervolgonderzoek op LLaMA-3 zelfs prestatieverlies in 7 van de 12 datasets zien.

Toch begint nog steeds 90 procent van de productieprompts met een rol-opener. Het voelt slim. En het is met één regel weg te halen.

3. Few-shot prompting werkt omgekeerd evenredig met model-capaciteit

Misschien wel de verrassendste vondst uit de literatuur: hoe capabeler het model, hoe gevoeliger het is voor slechte voorbeelden in je prompt. Een paper van Sclar et al. (ICLR 2024) liet zien dat alleen al de opmaak tussen voorbeelden — komma’s, dubbele puntjes, regeleinden — accuracy-verschillen van tot 76 procentpunten kan veroorzaken. En een opmaak die goed werkt op het ene model, blijkt slecht voor het andere. Wat optimaal is, is dus model-specifiek.

Hoe meer voorbeelden je geeft, hoe groter het oppervlak waarop deze breekbaarheid kan toeslaan.

Wat doe je dan wel — drie principes voor toekomstbestendige AI

Wij ontwerpen AI-systemen voor het MKB met drie regels die over alle modelgeneraties heen overeind zijn gebleven:

1. Beschrijf de intentie, niet de procedure. Vertel het model wat “klaar” betekent en welke regels heilig zijn. Laat het model zelf bepalen welke tussenstappen daarvoor nodig zijn. Zo ontwerp je een AI-systeem dat ook over twee jaar nog werkt.

2. Onderhoud specificaties en evals, niet “de prompt”. De prompt is het tijdelijke artefact. Wat duurzaam is, is de specificatie van wat je systeem moet doen, samen met geautomatiseerde tests die dat controleren. Bij elke modelupgrade draai je je prompt opnieuw door je evals.

3. Pin je modelversie in productie. Het is verleidelijk om automatisch op de nieuwste versie te draaien. Doe het niet. Pin een versie, draai je evals tegen de nieuwe versie zodra die uitkomt, en upgrade pas als je weet dat je systeem het overleeft.

Wat dit betekent voor jouw AI-investering

De meeste MKB-organisaties die de afgelopen twee jaar in AI hebben geïnvesteerd, hebben hun prompts geschreven voor het model van toen. Die prompts werken nu nog. Ze gaan stuk — niet áls, maar wánneer — de model-provider upgradet. Dat is geen verwijt aan jouw team. Het is een eigenschap van het medium.

De manier om je investering te beschermen is niet “betere prompts schrijven”. Het is bouwen aan de laag ónder de prompt: een heldere taakspecificatie, geautomatiseerde tests die regressie opmerken voordat je klant dat doet, en discipline rond modelversies. Zo word je in zeven stappen AI-native — niet door de prompts van vandaag, maar door de evals van morgen.

Wil je weten hoe jouw AI-systemen ervoor staan? Neem contact op — we kijken graag met je mee.

Pas op: AI-prompts verouderen sneller dan je denkt — 7 patronen die kapot gaan bij elke modelupgrade

TL;DR

Waarom prompts kapot gaan bij een modelupgrade

7 prompt-patronen die hun houdbaarheidsdatum hebben

Drie patronen uitgelicht — waarom uitgerekend deze

1. Chain-of-thought is bijna gratis geworden — en daarmee bijna waardeloos

2. “You are an expert X” werkt al sinds 2024 niet meer

3. Few-shot prompting werkt omgekeerd evenredig met model-capaciteit

Wat doe je dan wel — drie principes voor toekomstbestendige AI

Wat dit betekent voor jouw AI-investering

Tags :

Gerelateerde artikelen

7 stappen om AI-native te worden (zonder alles te hoeven uitzoeken)

AI vervangt junior werk, niet junioren: wat IBM, AWS en Klarna je leren

Vibe coding: waarom 45% van AI-code kwetsbaar is