Observational Memory: De Doorbraak Die AI Agent Kosten Tot 10x Verlaagt En RAG Verslaat Op Lange-Context Benchmarks
De wereld van kunstmatige intelligentie evolueert razendsnel, en daarmee ook de complexiteit en de eisen aan AI-agenten. Traditionele Retrieval-Augmented Generation (RAG) systemen, hoewel revolutionair, bereiken hun grenzen als het gaat om de snelheid en intelligentie die nodig is voor geavanceerde, agentische AI-workflows. Naarmate teams verschuiven van kortstondige chatbots naar langlopende, tool-intensieve agenten die diep geïntegreerd zijn in productiesystemen, worden de beperkingen van RAG steeds duidelijker. Gelukkig is er een veelbelovende nieuwe benadering die het tij keert: Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks. Deze innovatieve technologie belooft niet alleen een significante reductie in operationele kosten, maar levert ook betere prestaties op belangrijke benchmarks, wat een gamechanger is voor de ontwikkeling van stabiele en efficiënte AI-systemen.
In reactie op de groeiende behoefte aan robuustere geheugenarchitecturen, experimenteren teams met alternatieve methoden – soms aangeduid als contextueel of agentisch geheugen – die prioriteit geven aan persistentie en stabiliteit boven dynamische retrieval. Een van de meest recente implementaties van deze benadering is "Observational Memory," een open-source technologie ontwikkeld door Mastra, opgericht door de ingenieurs die eerder het Gatsby-framework bouwden en verkochten aan Netlify. Deze baanbrekende ontwikkeling demonstreert hoe Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks, waardoor het een cruciale overweging wordt voor bedrijven die hun AI-implementaties naar een hoger niveau willen tillen.
Hoe Observational Memory AI Agent Kosten Tot 10x Verlaagt
De economische voordelen van Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks komen voort uit een slimme benadering van prompt caching. Grote taalmodelproviders zoals Anthropic en OpenAI bieden aanzienlijk lagere tokentarieven voor gecachte prompts vergeleken met ongecachte prompts, soms wel een reductie van 4 tot 10 keer. De meeste traditionele geheugensystemen kunnen hier echter niet van profiteren, omdat ze de prompt bij elke interactie wijzigen door dynamisch opgehaalde context te injecteren, wat de cache ongeldig maakt. Voor productieteams vertaalt die instabiliteit zich direct in onvoorspelbare kosten, waardoor het budgetteren van agent-workloads een uitdaging wordt. Met "Observational Memory" is dit verleden tijd.
Observational Memory pakt dit probleem aan door de context stabiel te houden. Het observatieblok is alleen-toevoegen totdat het reflectieproces wordt geactiveerd. Dit betekent dat de systeemprompt en de bestaande observaties een consistent voorvoegsel vormen dat over vele beurten kan worden gecached. Berichten worden continu toegevoegd aan het ruwe berichtenlogboek totdat de drempel van 30.000 tokens wordt bereikt. Elke beurt vóór dat punt resulteert in een volledige cache-hit, wat enorme kostenbesparingen oplevert. Zelfs wanneer observaties worden gecomprimeerd en aan het bestaande blok worden toegevoegd, blijft het observatievoorvoegsel consistent, wat resulteert in een gedeeltelijke cache-hit. Pas tijdens reflectie, wat zelden gebeurt, wordt de gehele cache ongeldig gemaakt, wat de algehele stabiliteit en kostenefficiëntie van de observational memory-technologie aantoont. De gemiddelde contextvenstergrootte voor Mastra's LongMemEval benchmarkrun was ongeveer 30.000 tokens, aanzienlijk kleiner dan wat de volledige gespreksgeschiedenis zou vereisen, en bewijst de claim dat Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks.
Architectuur: Twee Agenten Comprimeren Historie tot Observaties
De architectuur van Observational Memory is verrassend eenvoudiger dan die van traditionele geheugensystemen, terwijl het toch betere resultaten levert. In plaats van dynamische contextophaal, zoals RAG-systemen doen, maakt Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks gebruik van twee achtergrondagenten, de Observer en de Reflector, om de conversatiegeschiedenis te comprimeren tot een gedateerd observatielogboek. Deze gecomprimeerde observaties blijven continu in de context, waardoor het volledig ophalen van informatie overbodig wordt. Dit resulteert in een indrukwekkende compressie van 3-6x voor tekstinhoud en maar liefst 5-40x voor tool-intensieve agent-workloads die grote outputs genereren. De efficiëntie van deze aanpak is een van de redenen waarom Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks.
De kern van het systeem is de verdeling van het contextvenster in twee blokken: het eerste bevat observaties – gecomprimeerde, gedateerde notities geëxtraheerd uit eerdere gesprekken – en het tweede houdt de ruwe berichtenhistorie van de huidige sessie bij. De twee achtergrondagenten beheren het compressieproces zorgvuldig. Wanneer ongeobserveerde berichten een drempel van 30.000 tokens bereiken (configureerbaar), comprimeert de Observer-agent deze tot nieuwe observaties en voegt ze toe aan het eerste blok, waarna de originele berichten worden verwijderd. Zodra de observaties 40.000 tokens bereiken (ook configureerbaar), restructureert en condenseert de Reflector-agent het observatielogboek, waarbij gerelateerde items worden gecombineerd en overbodige informatie wordt verwijderd. Sam Bhagwat, mede-oprichter en CEO van Mastra, legt uit: "De manier waarop je deze berichten in de loop van de tijd comprimeert, is dat je eigenlijk gewoon berichten krijgt, en dan laat je een agent zeggen: 'Oké, wat zijn de belangrijkste dingen om te onthouden uit deze reeks berichten?' Je comprimeert het, en dan krijg je weer 30.000 tokens, en dat comprimeer je opnieuw." De architectuur is volledig tekstgebaseerd, zonder de noodzaak voor vector- of graafdatabases, wat de implementatie en het onderhoud verder vereenvoudigt en bijdraagt aan de bewering dat Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks.
Het Fundamentele Verschil met Traditionele Compacatiemethoden
De meeste coderingsagenten gebruiken compactie om lange contexten te beheren. Bij compactie laat men het contextvenster volledig vollopen, waarna de hele geschiedenis wordt samengevat wanneer het op het punt staat over te lopen. De agent gaat verder, het venster vult zich opnieuw, en het proces herhaalt zich. Hoewel dit een methode is om het geheugen te beheren, produceert compactie vaak samenvattingen in documentatiestijl. Deze samenvattingen vangen de essentie van wat er is gebeurd, maar verliezen specifieke gebeurtenissen, beslissingen en details. De compressie gebeurt in grote batches, wat elke doorgang computationeel duur maakt. Dit werkt mogelijk voor menselijke leesbaarheid, maar het stript vaak de specifieke beslissingen en tool-interacties weg die agenten nodig hebben om consistent te handelen over langere perioden. Dit is waar de superioriteit van Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks duidelijk wordt.
De Observer-agent van Mastra, daarentegen, draait vaker en verwerkt kleinere chunks. In plaats van de conversatie samen te vatten, produceert het een event-gebaseerd beslissingslogboek – een gestructureerde lijst van gedateerde, geprioriteerde observaties over wat er specifiek is gebeurd. Elke observatiecyclus behandelt minder context en comprimeert deze efficiënter. Het logboek wordt nooit samengevat tot een amorfe blob. Zelfs tijdens reflectie reorganiseert en condenseert de Reflector de observaties om verbanden te vinden en redundante gegevens te verwijderen, maar de event-gebaseerde structuur blijft behouden. Het resultaat leest als een logboek van beslissingen en acties, niet als een documentatie, wat cruciale informatie behoudt voor de agent. Deze gedetailleerde, gestructureerde aanpak verklaart waarom Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks zo effectief is in het behouden van cruciale agent-specificiteit over tijd.
Enterprise Use Cases: Langlopende Agent Gesprekken
De klanten van Mastra beslaan diverse categorieën. Sommigen bouwen in-app chatbots voor CMS-platforms zoals Sanity of Contentful. Anderen creëren AI SRE-systemen die engineeringteams helpen bij het triageren van alerts. Documentverwerkingsagenten behandelen papierwerk voor traditionele bedrijven die de overstap maken naar automatisering. De gemeenschappelijke factor in al deze use cases is de noodzaak voor langlopende gesprekken die context bewaren over weken of zelfs maanden. Een agent die is ingebed in een contentmanagementsysteem moet onthouden dat de gebruiker drie weken geleden om een specifiek rapportformaat vroeg. Een SRE-agent moet bijhouden welke alerts zijn onderzocht en welke beslissingen zijn genomen. In dergelijke scenario's is de claim dat Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks niet alleen een benchmarkscore, maar een fundamentele productvereiste.
Sam Bhagwat benadrukt het belang van geheugen voor B2B SaaS-bedrijven: "Een van de grote doelen voor 2025 en 2026 is het bouwen van een agent binnen hun webapp. Die agent moet kunnen onthouden dat je me drie weken geleden over dit ding vroeg, of dat je zei dat je een rapport wilde over dit soort inhoud, of weergaven gesegmenteerd per deze metriek." In dergelijke situaties houdt geheugen niet langer op een optimalisatie te zijn, maar wordt het een productvereiste; gebruikers merken het onmiddellijk wanneer agenten eerdere beslissingen of voorkeuren vergeten. Observational Memory zorgt ervoor dat maanden aan gespreksgeschiedenis aanwezig en toegankelijk blijft. De agent kan reageren met de volledige context in gedachten, zonder dat de gebruiker voorkeuren of eerdere beslissingen opnieuw hoeft uit te leggen. Dit vermogen tot langdurig contextbehoud is waarom Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks zo waardevol is voor de enterprise markt. Het systeem is reeds geleverd als onderdeel van Mastra 1.0 en is nu beschikbaar, met recente plug-ins voor LangChain, Vercel's AI SDK en andere frameworks, waardoor ontwikkelaars Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks buiten het Mastra-ecosysteem kunnen gebruiken.
Wat Betekent Observational Memory Voor Productie AI Systemen?
Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks en biedt een fundamenteel andere architectonische benadering dan de vectordatabases en RAG-pipelines die momenteel domineren. De eenvoudige architectuur, die volledig tekstgebaseerd is en geen gespecialiseerde databases vereist, maakt het systeem aanzienlijk gemakkelijker te debuggen en te onderhouden. De stabiele contextvensters maken agressieve caching mogelijk, wat de operationele kosten drastisch verlaagt. Bovendien suggereren de uitstekende benchmarkprestaties dat deze aanpak schaalbaar is en in staat is om complexe AI-workloads efficiënt te beheren.
Voor enterprise teams die verschillende geheugenbenaderingen evalueren, zijn de belangrijkste vragen:
- Hoeveel context moeten uw agenten over verschillende sessies heen behouden?
- Wat is uw tolerantie voor compressie met gegevensverlies versus een volledige corpuszoekopdracht?
- Heeft u de dynamische retrieval nodig die RAG biedt, of zou een stabiele context beter werken?
- Zijn uw agenten tool-intensief, genereren ze grote hoeveelheden output die compressie vereist?
De antwoorden op deze vragen bepalen of de "Observational Memory"-aanpak geschikt is voor uw specifieke use case. Bhagwat positioneert geheugen als een van de top-primitieven die nodig zijn voor hoogpresterende agenten, naast toolgebruik, workflow-orkestratie, observeerbaarheid en vangrails. Voor bedrijfsagenten die zijn ingebed in producten, is het onacceptabel als ze de context tussen sessies vergeten. Gebruikers verwachten dat agenten hun voorkeuren, eerdere beslissingen en lopende werkzaamheden onthouden. "Het moeilijkste voor teams die agenten bouwen, is de productie, die tijd kan kosten," zei Bhagwat. "Geheugen is een heel belangrijk onderdeel daarin, want het is gewoon schokkend als je een agentische tool gebruikt en je hebt er iets verteld en het is het gewoon vergeten." Nu agenten verschuiven van experimenten naar ingebedde systemen van registratie, kan de manier waarop teams geheugen ontwerpen net zo belangrijk zijn als het model dat ze kiezen, en hier excelleert de Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks benadering.
Veelgestelde Vragen over Observational Memory
1. Wat is Observational Memory en hoe verschilt het van RAG?
Observational Memory is een geheugenarchitectuur voor AI-agenten die de conversatiegeschiedenis comprimeert tot een gedateerd observatielogboek met behulp van twee achtergrondagenten (Observer en Reflector). In tegenstelling tot RAG (Retrieval-Augmented Generation) dat context dynamisch ophaalt uit een externe corpus, blijft bij Observational Memory de gecomprimeerde context permanent aanwezig en stabiel in het contextvenster van de agent, wat retrieval volledig elimineert. Dit leidt tot lagere kosten en betere prestaties voor langlopende agent-workloads. De claim dat Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks is dus gebaseerd op een fundamenteel andere benadering van contextmanagement.
2. Welke voordelen biedt Observational Memory op het gebied van kosten en prestaties?
Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks door de context stabiel te houden. Deze stabiliteit maakt het mogelijk om prompts agressief te cachen, wat de tokenskosten met 4-10x verlaagt in vergelijking met dynamische RAG-systemen die de cache bij elke beurt ongeldig maken. Qua prestaties behaalde Observational Memory indrukwekkende scores van 94.87% op LongMemEval met GPT-5-mini en 84.23% met GPT-4o, wat beter is dan Mastra's eigen RAG-implementatie (80.05%), met name voor tool-intensieve agent-workloads en langdurige gesprekken. Dit bewijst dat Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks.
3. Voor welke type AI-agenten is Observational Memory het meest geschikt?
Observational Memory is bij uitstek geschikt voor langlopende, tool-intensieve AI-agenten die context over weken of maanden moeten behouden. Voorbeelden hiervan zijn in-app chatbots in CMS-platforms, AI SRE-systemen voor alert-triage en documentverwerkingsagenten die cruciale details en beslissingen moeten onthouden. Hoewel het minder geschikt is voor open-ended kennisontdekking of compliance-zware recall use cases, excelleert het daar waar agenten consistentie en geheugen over lange periodes nodig hebben, en is het de drijvende kracht achter de claim dat Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks.
Optimaliseer Uw Digitale Ervaring met Geavanceerde Technologie!
Net zoals Observational memory cuts AI agent costs 10x and outscores RAG on long-context benchmarks door geavanceerde technologie te gebruiken om de efficiëntie en prestaties van AI-agenten te maximaliseren, streven wij ernaar om uw entertainmentervaring te transformeren. Ontdek de toekomst van televisie met onze premium IPTV-abonnementen. Geniet van een ongeëvenaarde selectie van zenders, films en series in de hoogste kwaliteit, direct gestreamd naar al uw apparaten. Waarom genoegen nemen met minder als u het beste kunt hebben? Ervaar de stabiliteit, de snelheid en de rijkdom van content die u verdient.
Wacht niet langer en stap over op de meest innovatieve manier van televisiekijken. Ontdek nu onze IPTV-abonnementen en beleef entertainment zoals nooit tevoren!