Pas op: AI-prompts verouderen sneller dan je denkt — 7 patronen die kapot gaan bij elke modelupgrade

Pas op: AI-prompts verouderen sneller dan je denkt — 7 patronen die kapot gaan bij elke modelupgrade

  • JumpScale
  • Ai
  • 14 mei 2026

Jouw AI-investering veroudert sneller dan je denkt. Niet omdat de techniek hapert, maar omdat de prompts die je vandaag opstelt soms tegen je gaan werken op het model van morgen. We hebben de wetenschap, de model-providers zelf en concrete productie-cases naast elkaar gelegd. Hieronder: zeven patronen die hun houdbaarheidsdatum hebben, en hoe je je AI-investering toekomstbestendig maakt.


Inhoudsopgave

Stel: je klantenservice-bot werkt al maanden vlekkeloos. Klanten zijn tevreden, het scheelt fte’s. Dan komt er een nieuwe versie van het model. Op papier krachtiger, sneller, goedkoper. Twee weken later staat de teamleider klantenservice op je deurmat: de bot wijkt af van het script, beantwoordt vragen die hij niet zou moeten beantwoorden, en negeert juist de instructies waar het wél om gaat.

Geen hypothetisch scenario. Dit gebeurt zodra de prompts die voor de oude modelversie geschreven zijn, de nieuwe versie in de weg gaan zitten.

TL;DR

  • Modelupgrades breken prompts via twee tegengestelde mechanismen: het model neemt te veel zelf de regie, óf het wordt juist té letterlijk
  • Zeven prompt-patronen die ooit best practice waren, werken nu averechts op moderne reasoning-modellen
  • De duurzame strategie is niet “betere prompts” maar stabiele specificaties, automatische evals, en gepinde modelversies — zodat je weet wanneer iets breekt

Waarom prompts kapot gaan bij een modelupgrade

Bij nieuwe generaties drijven moderne LLM’s in twee tegengestelde richtingen — afhankelijk van de model-provider:

Inference creep — Het nieuwe model neemt steeds meer zelf de regie en overschrijft jouw grenzen met eigen oordeel. Anthropic erkende dit bij de overgang naar Claude Sonnet 4 en 4.5: instructies als “ALWAYS doe X” werden door het model heroverwogen onder de noemer “wil de gebruiker dit echt in deze context?”

Literalism shock — Het tegenovergestelde patroon. OpenAI schrijft het zelf in haar Cookbook over de GPT-4o naar GPT-4.1-overgang: “GPT-4.1 is trained to follow instructions more closely and more literally than its predecessors… we expect that getting the most out of this model will require some prompt migration.” Een instructie als “je moet altijd een tool aanroepen” leidde bij GPT-4o tot een verstandige vervolgvraag als de informatie ontbrak. GPT-4.1 hallucineerde gewoon een tool-call met lege parameters.

Een future-proof prompt moet tegen beide richtingen kunnen. Dat is een hogere lat dan de meeste prompts halen.

7 prompt-patronen die hun houdbaarheidsdatum hebben

#PatroonWaarom broos op moderne modellenWat doe je dan wel
1"Think step by step" als instructieReasoning-modellen (o1, o3, Claude met thinking) doen dit vanzelf — expliciete CoT kan prestaties juist ondermijnenGeef het doel, laat het model bepalen of het stapsgewijs redeneert
2"You are an expert X" rolpromptsOnderzoek bij 162 persona’s en 2.410 vragen toont géén gemiddelde verbetering — soms zelfs minder accurate antwoordenBeschrijf de taakcontext, niet een rol
35+ few-shot voorbeeldenSterke modellen raken verankerd aan je voorbeelden en verkennen de oplossingsruimte minderMaximaal 1-2 voorbeelden, divers gekozen
4Strikte JSON afdwingen tijdens redenerenStructuurdwang concurreert met denken — meetbaar prestatieverlies van 10-15% op redeneer-takenTwee stappen: eerst vrij redeneren, dan apart formatteren
5temperature=0 voor “determinisme”Anthropic Opus 4.7 weigert dit met HTTP 400. Google Gemini 3 raakt in een loop onder de defaultStandaardwaarde gebruiken; consistentie afdwingen via je prompt
6"NEVER doe X" negatieve instructiesSterke modellen interpreteren negaties soms tegenovergesteld; positieve instructies generaliseren beterSchrijf wat het model wél moet doen, mét uitleg waarom
7De 2000-token monsterprompt“God Object”-prompts: één wijziging veroorzaakt regressie op andere taken. Voiceflow zag 10% prestatieverlies bij modelmigratieSplits op in modulaire prompts met eigen evals

Drie patronen uitgelicht — waarom uitgerekend deze

1. Chain-of-thought is bijna gratis geworden — en daarmee bijna waardeloos

Het Wharton Generative AI Lab mat recent de afnemende waarde van chain-of-thought prompting op moderne reasoning-modellen. Op o3-mini en o4-mini leverde “think step by step” nog maar 2,9 tot 3,1 procent accuracy-winst op — tegen 20 tot 80 procent langere responstijd en hogere kosten.

Anders gezegd: je betaalt vier keer zoveel rekentijd voor een marginaal beter antwoord. Op specifieke taaktypen — denk aan impliciet statistisch redeneren — kan expliciete CoT de prestaties zelfs met 36 procentpunt verslechteren.

Het patroon dat in 2023 de gouden standaard was, is in 2026 een rem op snelheid zonder dat er kwaliteit tegenover staat.

2. “You are an expert X” werkt al sinds 2024 niet meer

Zheng et al. (EMNLP 2024) testten in een grootschalig onderzoek 162 verschillende persona’s — van “je bent een advocaat” tot “je bent een topwetenschapper” — verspreid over 2.410 feitelijke vragen en vier modelfamilies. De conclusie: geen meetbare verbetering ten opzichte van een neutraal systeemprompt. Op redeneer-taken liet vervolgonderzoek op LLaMA-3 zelfs prestatieverlies in 7 van de 12 datasets zien.

Toch begint nog steeds 90 procent van de productieprompts met een rol-opener. Het voelt slim. En het is met één regel weg te halen.

3. Few-shot prompting werkt omgekeerd evenredig met model-capaciteit

Misschien wel de verrassendste vondst uit de literatuur: hoe capabeler het model, hoe gevoeliger het is voor slechte voorbeelden in je prompt. Een paper van Sclar et al. (ICLR 2024) liet zien dat alleen al de opmaak tussen voorbeelden — komma’s, dubbele puntjes, regeleinden — accuracy-verschillen van tot 76 procentpunten kan veroorzaken. En een opmaak die goed werkt op het ene model, blijkt slecht voor het andere. Wat optimaal is, is dus model-specifiek.

Hoe meer voorbeelden je geeft, hoe groter het oppervlak waarop deze breekbaarheid kan toeslaan.

Wat doe je dan wel — drie principes voor toekomstbestendige AI

Wij ontwerpen AI-systemen voor het MKB met drie regels die over alle modelgeneraties heen overeind zijn gebleven:

1. Beschrijf de intentie, niet de procedure. Vertel het model wat “klaar” betekent en welke regels heilig zijn. Laat het model zelf bepalen welke tussenstappen daarvoor nodig zijn. Zo ontwerp je een AI-systeem dat ook over twee jaar nog werkt.

2. Onderhoud specificaties en evals, niet “de prompt”. De prompt is het tijdelijke artefact. Wat duurzaam is, is de specificatie van wat je systeem moet doen, samen met geautomatiseerde tests die dat controleren. Bij elke modelupgrade draai je je prompt opnieuw door je evals.

3. Pin je modelversie in productie. Het is verleidelijk om automatisch op de nieuwste versie te draaien. Doe het niet. Pin een versie, draai je evals tegen de nieuwe versie zodra die uitkomt, en upgrade pas als je weet dat je systeem het overleeft.

Wat dit betekent voor jouw AI-investering

De meeste MKB-organisaties die de afgelopen twee jaar in AI hebben geïnvesteerd, hebben hun prompts geschreven voor het model van toen. Die prompts werken nu nog. Ze gaan stuk — niet áls, maar wánneer — de model-provider upgradet. Dat is geen verwijt aan jouw team. Het is een eigenschap van het medium.

De manier om je investering te beschermen is niet “betere prompts schrijven”. Het is bouwen aan de laag ónder de prompt: een heldere taakspecificatie, geautomatiseerde tests die regressie opmerken voordat je klant dat doet, en discipline rond modelversies. Zo word je in zeven stappen AI-native — niet door de prompts van vandaag, maar door de evals van morgen.

Wil je weten hoe jouw AI-systemen ervoor staan? Neem contact op — we kijken graag met je mee.

Gerelateerde artikelen

7 stappen om AI-native te worden (zonder alles te hoeven uitzoeken)

7 stappen om AI-native te worden (zonder alles te hoeven uitzoeken)

95% van alle AI-pilots levert geen meetbare impact. Niet omdat AI niet werkt, maar omdat bedrijven verkeerd beginnen. Dit zijn de 7 stappen die wel werken, getest in ons eigen bedrijf.

Lees meer
AI vervangt junior werk, niet junioren: wat IBM, AWS en Klarna je leren

AI vervangt junior werk, niet junioren: wat IBM, AWS en Klarna je leren

IBM verdrievoudigt het aantal junior aannames. AWS noemt junioren vervangen door AI ‘het domste idee ooit’. Wat weten zij wat jij nog niet weet? En hoe selecteer je op AI-fluency?

Lees meer
Vibe coding: waarom 45% van AI-code kwetsbaar is

Vibe coding: waarom 45% van AI-code kwetsbaar is

Moltbook lekte 4.75 miljoen records omdat niemand de database-instellingen checkte. De oprichter had geen regel code geschreven. Dit is wat we daarvan leren.

Lees meer