Dynamische Orkestratie van LLM's: How Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs
De wereld van kunstmatige intelligentie evolueert razendsnel, maar één hardnekkige uitdaging blijft bestaan: hoe kunnen we de krachtige mogelijkheden van grote taalmodellen (LLM's) ten volle benutten zonder vast te lopen in rigide, handmatig gecodeerde systemen? Traditionele LangChain-pijplijnen en vergelijkbare frameworks beginnen te haperen zodra de aard van de gebruikersvragen verandert – en dat gebeurt altijd. Deze fundamentele beperking is precies wat Sakana AI heeft aangepakt met een baanbrekende oplossing. De vraag die centraal staat, is how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs en zo een nieuwe standaard zet voor de dynamische coördinatie van AI-systemen.
Onderzoekers van Sakana AI hebben de "RL Conductor" geïntroduceerd, een compact taalmodel van 7 miljard parameters, getraind via reinforcement learning (RL). Dit model is ontworpen om automatisch een diverse pool van 'worker LLM's' te orkestreren. De Conductor analyseert input dynamisch, verdeelt het werk over verschillende modellen en coördineert hun interacties. Deze geautomatiseerde coördinatie levert state-of-the-art resultaten op bij complexe redeneer- en coderingstests, waarbij het zelfs individuele grensverleggende modellen zoals GPT-5 en Claude Sonnet 4, en dure, door mensen ontworpen multi-agent pijplijnen overtreft. Het meest indrukwekkende is dat het deze prestaties levert tegen een fractie van de kosten en met aanzienlijk minder API-aanroepen dan concurrenten. De RL Conductor vormt de ruggengraat van Fugu, Sakana AI’s commerciële dienst voor multi-agent orkestratie, en is een perfect voorbeeld van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs met ongekende efficiëntie.
De Beperkingen van Handmatige Agentic Frameworks
Grote taalmodellen bezitten indrukwekkende latente capaciteiten, maar het volledig benutten hiervan is een aanzienlijke uitdaging. Het bereiken van optimale prestaties is tot nu toe sterk afhankelijk van handmatig ontworpen agentic workflows, die cruciale onderdelen vormen in commerciële AI-producten. Echter, deze frameworks schieten tekort omdat ze inherent rigide en beperkt zijn. Zoals Yujin Tang, mede-auteur van het onderzoek, aan VentureBeat uitlegde, ligt het exacte breekpunt van huidige systemen in hun inflexibiliteit: "Hoewel frameworks met hard-coded pijplijnen zoals LangChain en Mixture-of-Agents goed kunnen werken voor specifieke use-cases, ontstaat er in productie een inherente bottleneck bij het richten op domeinen met grote gebruikersbases en zeer heterogene eisen." Tang benadrukte dat het bereiken van "real-world generalisatie in dergelijke heterogene applicaties inherent verder gaat dan door mensen hard-gecodeerde ontwerpen."
Een andere belangrijke beperking voor het bouwen van robuuste agentic systemen is dat geen enkel model optimaal is voor alle taken. Verschillende modellen zijn gefijn-tuned om te specialiseren in afzonderlijke domeinen. Het ene model excelleert misschien in wetenschappelijk redeneren, terwijl het andere superieur is in codegeneratie, wiskundige logica of planning op hoog niveau. Omdat modellen uiteenlopende kenmerken en complementaire vaardigheden hebben, is het praktisch onmogelijk om handmatig de ideale combinatie van modellen voor elke query te voorspellen en hard te coderen. Een optimaal agentic framework zou een probleem moeten kunnen analyseren en sub taken moeten kunnen delegeren aan de meest geschikte expert in de pool. Dit is precies waar de innovatie van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs een oplossing biedt door deze uitdagingen te omzeilen met een intelligentere aanpak.
How Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs met de RL Conductor
De RL Conductor is specifiek ontworpen om de beperkingen van starre, door mensen ontworpen frameworks te overbruggen. Zoals de naam al impliceert, dirigeert het een orkest van agenten door uitdagende problemen op te splitsen, gerichte sub taken te delegeren en communicatietopologieën te ontwerpen voor een reeks worker LLM's. In plaats van te vertrouwen op vaste code of statische routering, orkestreert de Conductor deze modellen door een gepersonaliseerde workflow te genereren. Voor elke stap in de workflow genereert het model een natuurlijke taalinstructie voor een specifiek aspect van de taak, wijst het een agent toe om deze uit te voeren en definieert het een "access list" die bepaalt welke eerdere sub taken en reacties van andere agenten in de context van die agent worden opgenomen.
Door alles in natuurlijke taal te definiëren, bouwt de Conductor flexibele workflows die zijn afgestemd op elke input. Het kan eenvoudige sequentiële ketens, parallelle boomstructuren of zelfs recursieve loops construeren, afhankelijk van de eisen van het probleem. Belangrijk is dat het model deze strategieën niet leert door menselijk ontwerp, maar via reinforcement learning (RL) en beloningsmaximalisatie. Tijdens de training krijgt het model een taak, een pool van werknemers en een beloningssignaal op basis van de correctheid van het antwoord en de uitvoerindeling. Door een eenvoudig trial-and-error RL-algoritme ontdekt het model organisch welke combinaties van instructies en communicatiestructuren de hoogste beloning opleveren. Als gevolg hiervan neemt het automatisch geavanceerde orkestratiestrategieën aan, zoals gerichte prompt engineering, iteratieve verfijning en meta-prompt optimalisatie. Het model leert dynamisch zijn strategieën aan te passen en de verschillende sterke punten van zijn worker agents te benutten zonder dat een menselijke ontwikkelaar het proces hoeft vast te leggen. Dit toont prachtig aan how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs op een werkelijk autonome en adaptieve manier.
De RL Conductor in Actie: Resultaten en Efficiëntie
Om de RL Conductor in actie te testen, hebben de onderzoekers het 7-miljard-parameter Qwen2.5-7B-model gefijn-tuned met behulp van het framework. Tijdens de training kreeg de Conductor de taak om agentic workflows te ontwerpen van maximaal vijf stappen. Het had toegang tot een worker pool met zeven verschillende modellen: drie closed-source giganten (Gemini 2.5 Pro, Claude-Sonnet-4 en GPT-5) en vier open-source modellen (waaronder DeepSeek-R1-Distill-Qwen-32B, Gemma3-27B en Qwen3-32B). Dit setup illustreert perfect how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs en andere geavanceerde modellen.
Het team evalueerde de Conductor op een breed scala aan zeer uitdagende benchmarks en vergeleek het met individuele grensverleggende modellen die alleen opereerden, zelfreflecterende agenten die iteratief werden geprompt om hun eigen antwoorden te verbeteren, en state-of-the-art multi-agent routeringsframeworks zoals MASRouter, Mixture-of-Agents (MoA), RouterDC en Smoothie. De kleine 7B Conductor zette nieuwe benchmarks over de hele linie. Het behaalde een gemiddelde score van 77,27% over alle taken, met 93,3% op de AIME25 wiskunde benchmark, 87,5% op GPQA-Diamond en 83,93% op LiveCodeBench, aldus de onderzoekers. Opmerkelijk genoeg behaalde het deze scores terwijl het zeer efficiënt bleef. Terwijl baseline modellen zoals MoA 11.203 tokens per vraag verbruikten, gebruikte de Conductor gemiddeld slechts 1.820 tokens, met een gemiddelde van slechts drie stappen per workflow. Deze efficiëntie is een direct gevolg van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs met een focus op geoptimaliseerde resource-inzet.
Een nadere blik op de experimentele details toont precies aan waarom het framework zo effectief is. De Conductor leerde automatisch de taakmoeilijkheidsgraad te meten. Voor eenvoudige feitelijke herinneringsvragen loste het het probleem vaak in één stap op of gebruikte het een eenvoudige configuratie met twee agenten. Voor complexe coderingsproblemen bouwde het echter uitgebreide workflows met maximaal vier agenten, inclusief specifieke plannings-, implementatie- en verificatiefasen. De Conductor leerde ook dat grensverleggende modellen verschillende sterke punten hebben. Om records te behalen op coderingsbenchmarks, wees de Conductor vaak Gemini 2.5 Pro en Claude Sonnet 4 aan als planners op hoog niveau, en bracht het GPT-5 pas helemaal aan het einde in om de uiteindelijke geoptimaliseerde code te schrijven. In een bijzonder slimme demonstratie van aanpassingsvermogen gaf de Conductor soms zelfs zijn eigen rol volledig op, waarbij het hele planningsproces werd overgedragen aan Gemini 2.5 Pro, zodat deze de sub taken voor de rest van de pool kon dicteren. Dit illustreert op indrukwekkende wijze how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs en andere modellen met een ongekend niveau van intelligentie en autonomie.
How Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs naar Zakelijke Toepassingen: Sakana Fugu
Naast wiskunde- en coderingsbenchmarks, zet Sakana AI de onderliggende architectuur al in voor front-office toepassingen. "We gebruiken onze Fugu-modellen, gebaseerd op de Conductor-technologie, intern voor diverse praktische bedrijfstoepassingen: softwareontwikkeling, diepgaand onderzoek, strategieontwikkeling en zelfs visuele taken zoals slidemanagement," aldus Tang. Dit toont aan dat de technologie die uitlegt how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs een directe en tastbare impact heeft op operationele efficiëntie.
Hoewel het 7B-model dat in het onderzoekspaper wordt beschreven een verkennende blauwdruk was en niet openbaar beschikbaar is, heeft Sakana AI het Conductor-framework geproduceerd in zijn vlaggenschip commerciële AI-product, Sakana Fugu. Fugu, dat zich momenteel in de bètafase bevindt, fungeert als een multi-agent orkestratiesysteem dat toegankelijk is via een standaard OpenAI-compatibele API. Tang merkte op dat Fugu zich richt op "de grote markt van industrieën waar AI-adoptie nog geen grote productiviteitswinst heeft opgeleverd vanwege de generalisatiebeperkingen van huidige hard-gecodeerde pijplijnen, zoals financiën en defensie." De implementatie van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs in Fugu biedt een cruciale oplossing voor deze sectoren.
Voor bedrijfsontwikkelaars maakt dit een naadloze integratie in bestaande applicaties mogelijk zonder de hoofdpijn van het beheren van meerdere API-sleutels of het handmatig routeren van taken over verschillende leveranciers. Achter de API-interface automatiseert Fugu complexe samenwerkingstopologieën en roltoewijzingen binnen een pool van modellen. Om aan uiteenlopende zakelijke behoeften te voldoen, heeft Sakana twee varianten uitgebracht: Fugu Mini, gebouwd voor low-latency operaties, en Fugu Ultra, ontworpen voor maximale prestaties bij veeleisende workloads. Door te laten zien how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs met deze flexibiliteit, positioneert Sakana Fugu zich als een leider in adaptieve AI-oplossingen.
Wat betreft zorgen over governance rond autonome agenten die onzichtbare workflows opstarten, wees Tang erop dat de interpreteerbaarheidsrisico's functioneel vergelijkbaar zijn met de verborgen redeneringen van de huidige top-tier closed API's, en dat het systeem wordt beheerd met gevestigde vangrails om hallucinaties te minimaliseren. Voor bedrijfsarchitecten die afwegen wanneer RL-orkestratie versus traditionele routering moet worden ingezet, komt de beslissing vaak neer op engineering resources. "Wij geloven dat de absolute sweet spot ontstaat wanneer gebruikers en hun teams het gevoel hebben dat ze een onevenredig veel tijd besteden aan het begeleiden van hun onderliggende agenten," zei Tang. Hij waarschuwde echter dat het framework niet voor alles noodzakelijk is, en merkte op dat "het moeilijk is om de economische voordelen van een lokaal model dat direct op de machine van de gebruiker draait voor eenvoudige queries te verslaan." Dit perspectief benadrukt de pragmatische toepassing van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs in een breed scala aan scenario's.
Conclusie
De introductie van de RL Conductor door Sakana AI is een belangrijke mijlpaal in de evolutie van AI-systemen. Door een klein, op reinforcement learning gebaseerd model te ontwikkelen dat dynamisch en efficiënt complexe taken kan orkestreren over een diverse reeks van grote taalmodellen, heeft Sakana AI een fundamentele beperking van de huidige frameworks overwonnen. Het antwoord op de vraag how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs ligt in een geavanceerd systeem dat leert, zich aanpast en presteert op een niveau dat voorheen ondenkbaar was. Deze innovatie belooft niet alleen de efficiëntie en prestaties van AI in de onderneming te verbeteren, maar opent ook deuren naar nog complexere en adaptievere autonome systemen.
Terwijl de diversiteit van gespecialiseerde open- en closed-source AI-modellen blijft groeien, zullen statische hard-gecodeerde pijplijnen onvermijdelijk achterhaald raken. Vooruitkijkend zal deze dynamische orkestratie waarschijnlijk verder gaan dan tekst- en codeomgevingen. "Er is inderdaad een groot potentieel om deze kloof te dichten met cross-modale Conductor-frameworks die de basis vormen voor meer autonome, zelfcoördinerende fysieke AI-systemen," aldus Tang. De prestaties en efficiëntie van de RL Conductor demonstreren op indrukwekkende wijze de kracht van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs en andere geavanceerde modellen om AI naar een nieuw tijdperk van intelligentie en autonomie te tillen.
Veelgestelde Vragen over Sakana AI's Orchestratiemodel
1. Wat is de belangrijkste innovatie van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs?
De belangrijkste innovatie ligt in het vermogen van de RL Conductor, een 7B-model getraind via reinforcement learning, om automatisch en dynamisch een diverse pool van worker LLM's, waaronder GPT, Claude en Gemini, te orkestreren. In plaats van starre, handmatig gecodeerde workflows, genereert het model gepersonaliseerde, adaptieve workflows die sub taken toewijzen aan de meest geschikte specialistische modellen, wat resulteert in superieure prestaties en efficiëntie.
2. Welke voordelen biedt de methode how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs ten opzichte van traditionele frameworks zoals LangChain?
De methode van Sakana AI, die uitlegt how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs, biedt aanzienlijke voordelen ten opzichte van traditionele frameworks. Terwijl LangChain en vergelijkbare tools afhankelijk zijn van hard-gecodeerde pijplijnen die kwetsbaar zijn voor verschuivingen in querydistributie, leert de RL Conductor dynamisch workflows aan te passen. Dit zorgt voor real-world generalisatie, hogere nauwkeurigheid op complexe benchmarks en aanzienlijk lagere kosten en API-aanroepen, omdat het de sterke punten van elk individueel LLM optimaal benut.
3. Hoe draagt de aanpak van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs bij aan zakelijke toepassingen?
De aanpak van how Sakana trained a 7B model to orchestrate GPT, Claude and Gemini LLMs is cruciaal voor zakelijke toepassingen door de basis te leggen voor Sakana Fugu, een commercieel multi-agent orkestratiesysteem. Dit systeem stelt bedrijven in staat om complexe AI-workflows naadloos te integreren via een OpenAI-compatibele API, waardoor handmatige routing en het beheer van meerdere API-sleutels overbodig worden. Het verhoogt de productiviteit in sectoren zoals financiën en defensie, waar de generalisatiebeperkingen van eerdere AI-systemen een knelpunt vormden, en biedt geoptimaliseerde varianten voor zowel lage latentie als maximale prestaties.
Optimaliseer Uw Ervaring: Ontdek Onze Premium IPTV-Abonnementen!
Bent u klaar om uw entertainmentervaring naar een hoger niveau te tillen? Net zoals Sakana AI de kracht van diverse LLM's combineert voor superieure prestaties, bundelen wij de beste entertainmentopties in één naadloos pakket. Met onze premium IPTV-abonnementen geniet u van een ongeëvenaarde selectie van zenders, films en series, allemaal geleverd met haarscherpe kwaliteit en stabiliteit. Geen gedoe met beperkte keuzes of ingewikkelde installaties – alleen puur kijkplezier. Wacht niet langer en transformeer uw manier van kijken!
Mis deze kans niet! Klik hier om onze betaalbare en hoogwaardige IPTV-abonnementen te bekijken en uw ideale entertainmentpakket te kiezen: IPTV kopen