Databricks: Sterker model verliest met 21% van eigen agent bij hybride queries.

Revolutionaire AI-Agenten: Waarom Databricks Aantoont dat een Krachtiger Model nog Steeds met 21% Verloor aan Multi-Step Agents bij Hybride Queries

De wereld van AI-agenten evolueert razendsnel, maar data teams lopen herhaaldelijk tegen dezelfde struikelblokken aan. Vragen die een combinatie vereisen van gestructureerde data (zoals verkoopcijfers) met ongestructureerde content (zoals klantrecensies of citatiegegevens naast academische papers) leggen traditionele single-turn RAG-systemen (Retrieval Augmented Generation) lam. Dit is een kritiek punt voor bedrijven die diepere inzichten willen verkrijgen uit hun diverse databronnen. Recent onderzoek van Databricks werpt een helder licht op deze prestatiekloof en de weg vooruit. Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%, wat de noodzaak van een nieuwe architectuur onderstreept. Het blijkt een fundamenteel architecturaal probleem te zijn, en niet simpelweg een kwestie van modelkwaliteit.

Data teams die AI-agenten bouwen, stuiten steeds vaker op de beperkingen van bestaande benaderingen. Voor complexe zakelijke vragen die zowel salesdata uit een database als sentiment uit duizenden klantrecensies vereisen, schieten standaard RAG-systemen tekort. Hybride data queries vormen hierbij de grootste uitdaging. De innovatieve onderzoeksresultaten van Databricks tonen aan dat een multi-step, agentic approach aanzienlijk superieur is. Ze testten deze benadering tegen state-of-the-art single-turn RAG-baselines over negen enterprise kennistaken en rapporteerden verbeteringen van 20% of meer op Stanford's STaRK benchmark suite, samen met consistente vooruitgang op Databricks' eigen KARLBench evaluatiekader. Het cruciale inzicht: Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21% op het academische domein, en zelfs 38% op het biomedische domein. Dit bewijst dat de prestatiekloof tussen single-turn RAG en multi-step agenten bij hybride data taken een architecturaal probleem is, en geen kwestie van modelkwaliteit.

De Uitdaging: Waarom Traditionele RAG-systemen Falen bij Hybride Data

Het kernprobleem is dat standaard RAG-systemen falen wanneer een zoekopdracht een precieze gestructureerde filter combineert met een open-ended semantische zoekopdracht. Deze systemen zijn simpelweg niet ontworpen om de complexiteit van gestructureerde en ongestructureerde data gelijktijdig te verwerken. Neem een vraag als "Welke van onze producten hebben de afgelopen drie maanden dalende verkopen gekend, en welke mogelijk gerelateerde problemen komen naar voren in klantrecensies op diverse verkoopsites?" De verkoopgegevens bevinden zich in een datawarehouse, terwijl het sentiment van de recensies in ongestructureerde documenten op verschillende verkoopsites leeft. Een single-turn RAG-systeem kan deze query niet opsplitsen, elke helft naar de juiste databron routeren en vervolgens de resultaten combineren. Het mist de capaciteit om structurele beperkingen te encoderen en dynamisch te reageren op de verschillende aard van de databronnen.

Om definitief te bevestigen dat dit een architectuurprobleem is in plaats van een modelkwaliteitsprobleem, heeft Databricks gepubliceerde STaRK-baselines opnieuw uitgevoerd met behulp van een actueel state-of-the-art fundamenteel model. De resultaten waren onthullend en gaven een duidelijk signaal af aan de industrie: Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21% op het academische domein en maar liefst 38% op het biomedische domein, volgens het onderzoek. Dit betekent dat zelfs het inzetten van de krachtigste beschikbare LLM's niet volstaat als de onderliggende architectuur niet is afgestemd op complexe hybride data query's. STaRK is een benchmark gepubliceerd door onderzoekers van Stanford, die drie semi-gestructureerde retrieval-domeinen bestrijkt: Amazon productdata, de Microsoft Academic Graph en een biomedische kennisbasis, en biedt daardoor een robuuste testomgeving voor deze nieuwe agenten.

Databricks' Doorbraak: De Supervisor Agent en zijn Architectuur

Databricks heeft de Supervisor Agent ontwikkeld als de productie-implementatie van deze onderzoeksaanpak, en de architectuur ervan illustreert waarom de winsten consistent zijn over verschillende taaktypes. Deze benadering omvat drie kernstappen die samen zorgen voor een ongekende flexibiliteit en intelligentie in het omgaan met diverse databronnen. Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%, en het is precies de architectuur van de Supervisor Agent die dit mogelijk maakt. De Supervisor Agent is ontworpen om een efficiënte verwerking van gestructureerde en ongestructureerde gegevens mogelijk te maken, door een reeks intelligente stappen te doorlopen die verder gaan dan wat traditionele RAG-systemen kunnen bieden. Dit architecturale onderscheid is wat de Supervisor Agent zo krachtig maakt.

Parallelle Tool Ontleding: Meer dan Eén Pad tegelijk

In plaats van één brede query uit te geven en te hopen dat de resultaten zowel gestructureerde als ongestructureerde behoeften dekken, voert de Supervisor Agent SQL- en vectorzoekopdrachten simultaan uit. Vervolgens analyseert het de gecombineerde resultaten voordat het besluit wat de volgende stap moet zijn. Deze parallelle stap is essentieel en stelt de agent in staat om queries af te handelen die data type grenzen overschrijden, zonder dat de data eerst genormaliseerd hoeft te worden. Dit is een gamechanger voor bedrijven, omdat het de voorbereidende databewerking aanzienlijk vermindert en de snelheid van inzichten verhoogt. De efficiëntie van deze aanpak draagt direct bij aan het feit dat Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%.

Zelfcorrectie: Leren van Mislukkingen

Wanneer een initiële retrieval-poging op een doodlopende weg stuit, detecteert de agent de mislukking, herformuleert de query en probeert een ander pad. Dit adaptieve leervermogen is cruciaal voor het navigeren door complexe en soms onvolledige datalandschappen. Op een STaRK benchmarktaak die vereist om een paper te vinden van een auteur met precies 115 eerdere publicaties over een specifiek onderwerp, bevraagt de agent eerst zowel SQL als vector search parallel. Wanneer de twee resultaten geen overlap vertonen, past het zich aan en voert een SQL JOIN uit over beide beperkingen, en roept vervolgens het vectorzoeksyteem aan om het resultaat te verifiëren voordat het antwoord wordt teruggegeven. Deze iteratieve aanpak en fouttolerantie zijn sleutelfactoren achter de superieure prestaties. Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21% door het vermogen van de agent om zichzelf te corrigeren en te verbeteren.

Declaratieve Configuratie: Eenvoud in Gebruik

De agent is niet afgestemd op een specifieke dataset of taak. Het verbinden met een nieuwe databron betekent simpelweg een beschrijving in gewone taal schrijven van wat die bron bevat en welke soorten vragen deze moet beantwoorden. Er is geen aangepaste code vereist. "De agent kan dingen doen zoals het ontleden van de vraag in een SQL-query en een zoekopdracht out of the box," aldus Michael Bendersky, research director bij Databricks. "Het kan de resultaten van SQL en RAG combineren, redeneren over die resultaten, vervolgvragen stellen en dan redeneren over of het uiteindelijke antwoord daadwerkelijk is gevonden." Deze declaratieve aanpak vereenvoudigt de adoptie en schaalbaarheid, en is een belangrijke reden waarom Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%.

Voorbij Hybride Retrieval: Een Architecturale Verschuiving

Het onderscheid dat Databricks maakt, gaat niet over de retrievaltechniek, maar over de architectuur. "We zien dit bijna niet als hybride retrieval waar je embeddings en zoekresultaten, of embeddings en tabellen combineert," zei Bendersky. "We zien dit meer als een agent die toegang heeft tot meerdere tools." De praktische consequentie van deze benadering is dat het toevoegen van een nieuwe databron betekent dat deze wordt verbonden met de agent en een beschrijving wordt geschreven van wat het bevat. De agent handelt routing en orkestratie af zonder aanvullende code. Dit is een fundamentele verschuiving die verder gaat dan de capaciteiten van traditionele RAG-systemen en een belangrijke factor is waarom Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%.

Aangepaste RAG-pijplijnen vereisen dat data wordt omgezet in een formaat dat het retrieval-systeem kan lezen, typisch tekstchunks met embeddings. SQL-tabellen moeten worden genormaliseerd, JSON moet worden gestandaardiseerd. Elke nieuwe databron die aan de pijplijn wordt toegevoegd, betekent meer conversiewerk. Het onderzoek van Databricks stelt dat naarmate bedrijfsdata meer brontypen omvat, deze last aangepaste pijplijnen steeds onpraktischer maakt in vergelijking met een agent die elke bron in zijn oorspronkelijke formaat bevraagt. "Breng de agent gewoon naar de data," zei Bendersky. "Je geeft de agent in principe meer bronnen, en hij zal ze vrij goed leren gebruiken." Deze data-agnostische aanpak is wat de Supervisor Agent zo krachtig en flexibel maakt, en verklaart waarom Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%.

Wat dit Betekent voor Ondernemingen

Voor data-engineers die overwegen of ze aangepaste RAG-pijplijnen moeten bouwen of een declaratief agentframework moeten adopteren, biedt het onderzoek een duidelijke richting: als de taak vragen omvat die gestructureerde en ongestructureerde data overspannen, is het bouwen van aangepaste retrieval de moeilijkere weg. Het onderzoek wees uit dat bij alle geteste taken de enige dingen die verschilden tussen implementaties, instructies en toolbeschrijvingen waren. De agent deed de rest. Dit is een krachtig argument voor het omarmen van geavanceerde AI-agentarchitecturen.

De praktische beperkingen zijn reëel, maar beheersbaar. De aanpak werkt goed met vijf tot tien databronnen. Te veel tegelijk toevoegen, zonder te selecteren welke bronnen complementair zijn in plaats van tegenstrijdig, maakt de agent langzamer en minder betrouwbaar. Bendersky raadt aan om incrementeel te schalen en de resultaten bij elke stap te verifiëren in plaats van alle beschikbare data vooraf te verbinden. Dit zorgt voor een gecontroleerde uitrol en optimalisatie, waardoor de prestaties consistent blijven. Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%, wat de effectiviteit van deze incrementele schaalbaarheid benadrukt.

Dataprecisie is een vereiste. De agent kan queries uitvoeren over niet-overeenkomende formaten, JSON-reviewfeeds naast SQL-verkooptabellen, zonder normalisatie te vereisen. Het kan echter geen brongegevens repareren die feitelijk onjuist zijn. Het toevoegen van een beschrijving in gewone taal van elke databron op het moment van ingestie helpt de agent queries correct te routeren vanaf het begin. De kwaliteit van de inputdata blijft cruciaal voor de betrouwbaarheid van de output, zelfs met de meest geavanceerde agenten.

De Toekomst van Enterprise AI: Schaalbaarheid en Evolutie

Het onderzoek positioneert dit als een vroege stap in een langer traject. Naarmate AI-workloads in ondernemingen volwassener worden, wordt verwacht dat agenten zullen redeneren over tientallen brontypen, inclusief dashboards, code-repositories en externe datafeeds. Het onderzoek stelt dat de declaratieve aanpak dit schaalbaar maakt, omdat het toevoegen van een nieuwe bron een configuratieprobleem blijft in plaats van een engineeringprobleem. Dit betekent een fundamentele verschuiving in hoe bedrijven AI-oplossingen implementeren en beheren. De belofte van eenvoudige schaalbaarheid en verbeterde prestaties is aanzienlijk.

"Dit is een soort ladder," zei Bendersky. "De agent zal langzaam meer en meer informatie krijgen en dan geleidelijk verbeteren." Deze visie op evoluerende agenten, die continu leren en zich aanpassen, is de toekomst van enterprise AI. De bevinding dat Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21% op diverse benchmarks, wijst de weg naar een toekomst waarin slimme, contextbewuste agenten de norm zijn voor het ontsluiten van de volledige waarde van hybride data. Dit markeert een significant moment in de ontwikkeling van AI-agenten en hun rol in het oplossen van complexe zakelijke problemen. De nieuwe generatie AI-agenten zal de capaciteit van bedrijven transformeren om data te benutten.

Veelgestelde Vragen over de Prestatiekloof bij Hybride Queries

1. Waarom falen traditionele RAG-systemen bij hybride queries, zelfs met een sterk model?

Traditionele RAG-systemen falen omdat ze zijn ontworpen voor single-turn retrieval en niet de architectuur hebben om queries op te splitsen, parallelle zoekopdrachten in gestructureerde en ongestructureerde databronnen uit te voeren, en de resultaten coherent te combineren. Zelfs een krachtiger model kan dit architecturale tekort niet compenseren, zoals blijkt uit het feit dat Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%. De complexiteit van het combineren van SQL-data met semantische zoekresultaten vereist een intelligentere orkestratie die RAG-systemen missen.

2. Hoe lost de Supervisor Agent van Databricks het probleem van hybride queries op?

De Supervisor Agent van Databricks lost dit op door een multi-step benadering met drie kernstappen: parallelle tool ontleding (simultane SQL- en vectorzoekopdrachten), zelfcorrectie (detecteren van mislukkingen en herformuleren van queries), en declaratieve configuratie (beschrijving van databronnen in gewone taal zonder code). Deze architectuur stelt de agent in staat om flexibel en adaptief om te gaan met diverse databronnen en de resultaten te synthetiseren, wat essentieel is omdat Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%.

3. Wat zijn de praktische implicaties van deze bevindingen voor bedrijven die AI-agenten bouwen?

Voor bedrijven betekent dit dat voor taken die vragen over gestructureerde en ongestructureerde data combineren, het bouwen van aangepaste RAG-pijplijnen minder effectief en complexer is dan het adopteren van een declaratief agentframework zoals de Supervisor Agent. De onderzoeksresultaten tonen aan dat een geavanceerde agent, zelfs wanneer Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%, superieure prestaties levert, wat suggereert dat de focus moet liggen op architectuur die meerdere tools en databronnen kan orkestreren, in plaats van alleen op modelkwaliteit. Dit leidt tot snellere ontwikkeling en betere resultaten voor hybride data queries.


Ontgrendel het volledige potentieel van uw digitale ervaring. Net zoals de Databricks Supervisor Agent naadloos verschillende datastromen combineert voor superieure inzichten, brengen onze IPTV-abonnementen een ongeëvenaarde verscheidenheid aan entertainment rechtstreeks naar uw scherm. Stop met compromissen en stap over op een premium kijkervaring die verder gaat dan de traditionele beperkingen. Wacht niet langer en ontdek de toekomst van entertainment. Koop vandaag nog uw IPTV-abonnement en duik in een wereld van eindeloze mogelijkheden.

Nieuwer Ouder