metbyte
1 min read23 juni 2026Cesar Zijp

Hoe wij AI Agents effectiever én goedkoper maken

AI agents zijn krachtig, maar ze kunnen ook verrassend duur zijn. Elke API-aanroep kost tokens — en naarmate een gesprek langer wordt, groeien de kosten exponentieel. Met vier concrete technieken houd je je agent scherp én betaalbaar.


Samenvatting in tools

Ruwe tool-outputs zijn een van de grootste tokenvreters in een agent-pipeline. Een database-query of grep-resultaat kan makkelijk 50KB teruggeven, terwijl de agent in de praktijk slechts een handvol relevante zinnen nodig heeft. Anthropic raadt expliciet aan om tool-responses zo te ontwerpen dat ze alleen high-signal informatie bevatten.

De meest effectieve aanpak is het handle-plus-summary pattern: geef de agent een korte samenvatting van het resultaat plus een referentie (handle) naar de volledige output, zodat hij die alleen opvraagt als dat echt nodig is. In multi-agent systemen kun je tool-resultaten zelfs volledig vervangen door een samenvatting van twee à drie zinnen zodra die al verwerkt zijn in latere redenering. Anthropic past dit zelf toe in Claude Code: het model comprimeert de conversatiehistorie en bewaart alleen architectuurbeslissingen, openstaande bugs en implementatiedetails — terwijl redundante tool-outputs worden weggegooid.

Sub agents

Wij werken vaak met sub agents die via een goedkoper model samenvattingen maken voor de hoofd agent. Op die manier hou je context klein zonder dat je informatie verliest.


Prompt Caching aanzetten

Bij elke API-aanroep herberekent het model standaard alle tokens opnieuw — inclusief je systeem-prompt die bij elke aanroep identiek is. Prompt caching slaat de KV-berekening (key-value computation) van een statisch stuk prompt op, zodat volgende aanroepen dat deel niet opnieuw hoeven te verwerken.

De kostenimpact is fors. Bij Claude kosten gecachte tokens slechts 10% van de normale inputprijs; cache-writes kosten eenmalig 25% meer dan standaard. Bij OpenAI werkt caching automatisch op ondersteunde endpoints met 50% korting op gecachte tokens. Voor een Claude-sessie van 50K tokens betekent dit een daling van $0,667 naar $0,080 per aanroep. De totale besparing met batchverwerking kan oplopen tot 95%.

Praktische implementatie:

  • Stel de volgorde statisch-eerst in: systeem-prompt → voorbeelden → tools → opgehaalde documenten → query
  • Activeer caching bij Claude via cache_control headers in de API-aanroep
  • Zorg dat je prompt minimaal 1.024 tokens bevat — daaronder wordt caching simpelweg niet geactiveerd

Kijk uit met wat je dynamisch injecteert

Hier gaat het in de praktijk het vaakst mis. Zodra je dynamische waarden injecteert in het deel van de prompt dat gecached is — zoals een timestamp, user-ID of sessievariabele, wordt de cache elke keer opnieuw geschreven en verlies je al je caching-winst. Het deel dat je cacht moet dus statische tekst zijn.

De gouden regel: zet dynamische content zo laat mogelijk in de prompt, na het statische gedeelte. Plaats het huidig tijdstip, gebruikersnaam of variabele context altijd in het dynamic (het liefst laatste) van je prompt, nooit in het systeem-prompt. Hetzelfde geldt voor toolsets: als je toolset per request varieert (zoals bij MCP-configuraties), wordt het gecachte prefix elke keer ongeldig. Gebruik in dat geval liever code-generatie voor dynamische capabilities.


Truncate tool outputs als je externe data ophaalt

Wanneer je tool-output niet samengevat kan worden, is truncatie de volgende verdedigingslinie. Een zoekresultaat, log-bestand of shell-output kan moeiteloos het context-budget overschrijden — en een agent die een afgekapte payload ontvangt zonder dat dit gemarkeerd is, zal dat zelfverzekerd als volledig samenvatten.

Effectieve truncatie doe je in drie stappen:

  • Log de grootte van elke tool-output in productie
  • Pagineer of vat samen outputs die structureel te groot worden
  • Stuur een gestructureerde fout (result_too_large) vanuit de tool-wrapper vóórdat een afgekapt resultaat bij het model aankomt

Is je tool-output consistent onder de 2.000 tokens? Dan hoef je niets te truncaten en kun je de overhead overslaan. Let bij truncatie altijd op multi-byte tekens (zoals emoji of niet-Latijnse tekst) om encoding-fouten te voorkomen.


Door deze vier technieken te combineren — samenvatten in tools, prompt caching, statische promptstructuur en slimme truncatie — kun je de operationele kosten van je AI agent aanzienlijk verlagen zonder in te leveren op kwaliteit of snelheid.