Google AI: Kleine modellen beheersen complexe redenering.

De geavanceerde aanpak van Google's new AI training method helps small models tackle complex reasoning op een ongekende manier, waardoor zelfs compactere modellen complexe uitdagingen aankunnen die voorheen buiten bereik lagen. Deze innovatieve leermethode, bekend als Supervised Reinforcement Learning (SRL), transformeert probleemoplossing in een gestructureerde reeks logische 'acties', wat een rijkere leerervaring oplevert. Onderzoekers van Google Cloud en UCLA hebben dit baanbrekende raamwerk ontwikkeld, dat belooft de mogelijkheden van taalmodellen significant te vergroten voor uiterst veeleisende meerstaps redeneertaken. Door de nadruk te leggen op stapsgewijze feedback, bewijst SRL dat Google's new AI training method helps small models tackle complex reasoning niet alleen efficiënter is, maar ook effectiever in het ontwikkelen van robuuste en generaliseerbare redeneervaardigheden. Dit artikel duikt dieper in hoe deze methode werkt en welke impact het kan hebben op de toekomst van AI.

Recent onderzoek van Google Cloud en UCLA heeft een revolutionair raamwerk voor reinforcement learning voorgesteld, dat de capaciteit van taalmodellen om zeer uitdagende **meerstaps redeneertaken** te leren aanzienlijk verbetert. De methode, Supervised Reinforcement Learning (SRL), herformuleert probleemoplossing als een reeks logische “acties” en levert rijke leersignalen tijdens het trainingsproces. Dit is precies waarom **Google's new AI training method helps small models tackle complex reasoning** effectief is.

Deze aanpak stelt kleinere modellen in staat om complexe problemen te leren die voorheen onbereikbaar waren met andere veelvoorkomende trainingstechnieken. Experimenten tonen aan dat SRL niet alleen uitblinkt op **wiskundige redenering benchmarks**, maar ook effectief generaliseert naar agentic software engineering-taken. SRL is een veelzijdig trainingsframework dat kleinere en minder kostbare modellen kan verheffen tot hogere redeneercapaciteiten, wat de kern vormt van waarom **Google's new AI training method helps small models tackle complex reasoning** zo belangrijk is.

De beperkingen van huidige LLM redeneertraining

De recente vooruitgang in het trainen van Large Language Models (LLM's) voor redenering is grotendeels gedreven door Reinforcement Learning with Verifiable Rewards (RLVR), een methode waarbij een model wordt beloond op basis van de correctheid van het eindantwoord. Door herhaaldelijk problemen op te lossen en feedback te krijgen over het uiteindelijke resultaat, leert het model geleidelijk effectieve probleemoplossende strategieën. Echter, het succes van deze resultaatgerichte aanpak hangt af van het vermogen van het model om binnen een beperkt aantal pogingen, of "rollouts", een correcte oplossing te vinden. Omdat elke rollout computationeel duur is, kunnen modellen niet oneindig proberen. Deze methode stuit op een muur wanneer problemen zo moeilijk zijn dat het model zelden, of nooit, het juiste antwoord vindt binnen zijn budget. Dit creëert een kritieke leerknelpunt. Bij veel meerstaps redeneerproblemen kan een model meerdere stappen correct oplossen, maar ontsporen door een enkele fout, wat leidt tot een onjuist antwoord. Met RLVR krijgt deze hele inspanning een negatieve beloning, en leert het model niets van zijn gedeeltelijk correcte werk. Het is een alles-of-niets benadering die geen gedetailleerde feedback geeft en resulteert in schaarse beloningen. Een alternatieve methode is Supervised Fine-Tuning (SFT), waarbij het model leert van voorbeelden die het volledige redeneerproces bevatten, zoals uiteengezet door experts. Hoewel SFT redeneervaardigheden kan aanleren, leidt het vaak tot overfitting; het model leert eenvoudigweg de trajecten in de trainingsgegevens te imiteren in plaats van te generaliseren naar problemen buiten de voorbeelden die het heeft gezien. Dit probleem wordt verergerd door het feit dat menselijk gecreëerde trainingsgegevens van hoge kwaliteit zowel schaars als duur zijn om te produceren. Zoals de paper opmerkt, laten deze beperkingen "een kritiek gat voor het trainen van kleine open-source modellen om effectief moeilijke problemen te leren," en hier laat Google's new AI training method helps small models tackle complex reasoning zijn ware kracht zien.

Hoe **Google's new AI training method helps small models tackle complex reasoning**: De werking van SRL

SRL introduceert een raamwerk dat probleemoplossing herformuleert als een "sequentiële besluitvorming", wat een evenwicht creëert tussen puur resultaatgerichte Reinforcement Learning (RL) en puur imitatie leren. In plaats van alleen te optimaliseren voor het eindantwoord of het model te dwingen het hele denkproces van een expert te imiteren, leert SRL het model een reeks sleutelacties te reproduceren die de ruggengraat vormen van expertredenering. Dit stelt het model in staat om acties te leren die vergelijkbaar zijn met die van een expert, terwijl het zijn eigen interne redeneerstijl ontwikkelt. Dit is een cruciale reden waarom Google's new AI training method helps small models tackle complex reasoning. Binnen het SRL-raamwerk worden expert demonstraties opgesplitst in een reeks tussentijdse, concrete acties, waarbij elke actie een zinvolle stap vertegenwoordigt. Voor een wiskundig probleem kan een actie bijvoorbeeld een algebraïsche manipulatie zijn. Voor een software engineering agent kan het een commando zijn dat wordt uitgevoerd in een code repository. Om trainingsgegevens te genereren, gebruikt SRL een krachtig leraarmodel om oplossingstrajecten te creëren, die vervolgens worden gebruikt om een kleiner model te trainen. Volgens I-Hung Hsu, een onderzoekswetenschapper bij Google en mede-auteur van de paper, is deze middenweg-aanpak essentieel voor de effectiviteit in praktijksituaties. "SRL zit in het midden: het vangt de gestructureerde flexibiliteit van probleemoplossing in de echte wereld, waar er meerdere geldige strategieën zijn, maar ook duidelijke noties van hoe 'goed redeneren' er bij elke stap uitziet," vertelde Hsu aan VentureBeat. "Dit maakt SRL geschikt voor domeinen zoals data science automatisering of waarschijnlijk supply chain optimalisatie – taken die gezonde tussenliggende redenering belonen in plaats van louter eindantwoorden." Tijdens de training genereert het model eerst een "innerlijke monoloog" (zijn interne redeneerproces, ingesloten in <think> tags) voordat het een actie uitvoert. Bij elke stap biedt SRL een beloning op basis van de gelijkenis tussen de voorspelde actie van het model en de actie van de expert. Dit stapsgewijze beloningssysteem biedt dichte, fijnmazige feedback, waardoor het model kan leren en verbeteren, zelfs als de algehele oplossing niet perfect is. Dit lost het probleem van schaarse beloningen op waar RLVR mee te maken heeft, en toont de potentie van Google's new AI training method helps small models tackle complex reasoning.

**Google's new AI training method helps small models tackle complex reasoning** in de praktijk: Indrukwekkende resultaten

De experimenten van de onderzoekers tonen aan dat SRL significant beter presteert dan sterke baselines, zowel bij uitdagende wiskundige redenering als bij agentic software engineering benchmarks. Ze observeerden ook dat SRL flexibelere en geavanceerdere redeneerpatronen in modellen aanmoedigt, zoals interleaved planning en zelfverificatie, wat de oplossingskwaliteit verbetert zonder de outputs langer te maken. Dit onderstreept hoe effectief Google's new AI training method helps small models tackle complex reasoning is. Voor bedrijfsleiders zijn prestatieverbeteringen alleen waardevol als ze niet gepaard gaan met buitensporige kosten. Hsu verduidelijkt dat SRL-getrainde modellen efficiënter zijn in hun redenering. "De winst komt van betere redeneerkwaliteit en structuur, niet van spraakzaamheid," zei hij. "Wat efficiëntie betreft, zijn SRL-getrainde modellen ongeveer gelijk aan het basismodel in tokengebruik... hoewel SRL niet is ontworpen om de inference kosten te verlagen, behaalt het sterkere redeneerprestaties zonder deze te verhogen." Dit maakt Google's new AI training method helps small models tackle complex reasoning een zeer aantrekkelijke optie voor bedrijven.

Voor de wiskundetests heeft het team Qwen2.5-7B-Instruct gefinetuned op een dataset van 1.000 moeilijke wiskundevragen. Ze vergeleken de prestaties met modellen die getraind waren met SFT en RLVR (met behulp van het GRPO-algoritme dat gebruikelijk is in modellen zoals DeepSeek-R1) op vier wiskundige benchmarks op wedstrijdniveau. Het SRL-getrainde model behaalde een substantiële gemiddelde prestatieverbetering van 3,0% ten opzichte van andere methoden. Dit is een duidelijk bewijs dat Google's new AI training method helps small models tackle complex reasoning daadwerkelijk werkt.

Het team breidde SRL uit naar agentic software engineering, een cruciaal domein voor bedrijfsautomatisering. Ze trainden een coding-gespecialiseerd model, Qwen2.5-Coder-7B-Instruct, op 5.000 expert trajecten van agents die interageren met een codeeromgeving. Het SRL-getrainde model werd vergeleken met het originele basismodel en SWE-Gym-7B, een sterke baseline gefinetuned met SFT. SRL behaalde een taakoplossingspercentage van 14,8%, wat een relatieve verbetering van 74% betekent ten opzichte van het SFT-gebaseerde model. Dit toont het vermogen van SRL aan om competentere AI-agents te trainen voor complexe, real-world programmeertaken, en bevestigt opnieuw hoe Google's new AI training method helps small models tackle complex reasoning.

Zet **Google's new AI training method helps small models tackle complex reasoning** een nieuwe standaard?

De sterkste resultaten uit de paper kwamen voort uit een combinatie van methoden: eerst SRL gebruiken om fundamentele redenering aan te leren, en vervolgens RLVR gebruiken om die vaardigheid te verfijnen. In hun experimenten, toen de onderzoekers SRL als pre-training gebruikten en RLVR in post-training toepasten, observeerden ze een gemiddelde toename van 3,7%, wat een krachtige curriculum learning-strategie aantoont. Dit roept de vraag op of dit een nieuw blauwdruk zou kunnen worden voor het bouwen van gespecialiseerde AI. Hsu benadrukt dat Google's new AI training method helps small models tackle complex reasoning een solide basis biedt. "We zien SRL als een sterke basis," zei Hsu. "In zekere zin biedt SRL een curriculum – modellen leren stap voor stap te denken en te handelen – voordat we dat gedrag verfijnen met resultaatgerichte Reinforcement Learning. Deze SRL-eerste aanpak stabiliseert niet alleen de latere RL-fase, maar maakt redeneren ook interpreteerbaarder en generaliseerbaarder, wat cruciaal is voor high-stakes toepassingen." Dit is waar de kracht van Google's new AI training method helps small models tackle complex reasoning echt tot zijn recht komt.

Vooruitkijkend erkent Hsu dat het opschalen van deze pijplijn nog steeds voor uitdagingen staat, met name de hoge kosten en complexiteit van end-to-end RLVR voor agentic taken. Hij is echter optimistisch over de weg voorwaarts. "Hoewel expert trajecten van hoge kwaliteit belangrijk blijven," concludeerde hij, "denken we dat de volgende grote sprong zal komen van het automatiseren van hun generatie en filtering – gebruikmakend van sterke leraar-modellen of zelfs zelfverbeterende student-modellen om nieuwe gegevens te bootstrappen." Hierdoor wordt de impact van Google's new AI training method helps small models tackle complex reasoning alleen maar groter.

Veelgestelde Vragen over **Google's new AI training method helps small models tackle complex reasoning**

1. Wat is Supervised Reinforcement Learning (SRL) en waarom is het belangrijk?
SRL is een nieuwe AI-trainingstechniek van Google Cloud en UCLA die de leerprocessen van taalmodellen verbetert voor complexe, meerstaps redeneertaken. Het is belangrijk omdat het, door probleemoplossing als een reeks logische acties te herformuleren en stapsgewijze feedback te geven, kleinere en minder dure modellen in staat stelt taken uit te voeren die voorheen alleen door veel grotere en duurdere modellen konden worden afgehandeld. Dit betekent dat **Google's new AI training method helps small models tackle complex reasoning** efficiënter en toegankelijker wordt.

2. Hoe onderscheidt SRL zich van traditionele AI-trainingsmethoden zoals RLVR en SFT?
SRL overbrugt de kloof tussen **Reinforcement Learning with Verifiable Rewards (RLVR)** en **Supervised Fine-Tuning (SFT)**. Waar RLVR lijdt onder **schaarse beloningen** en een "alles-of-niets"-aanpak, en SFT vaak leidt tot **overfitting**, biedt SRL dichte, fijnmazige feedback op elke logische stap van het redeneerproces. Dit maakt SRL effectiever in het aanleren van robuuste en generaliseerbare redeneervaardigheden, waardoor **Google's new AI training method helps small models tackle complex reasoning** veel flexibeler is.

3. Wat zijn de praktische toepassingen en voordelen van deze nieuwe AI-trainingstechniek?
De voordelen van **Google's new AI training method helps small models tackle complex reasoning** zijn aanzienlijk. SRL presteert uitzonderlijk goed op **wiskundige redenering benchmarks** en **agentic software engineering taken**, wat het potentieel voor **bedrijfsautomatisering** vergroot. Het stelt bedrijven in staat om krachtigere AI-modellen in te zetten voor complexe taken, zonder dat dit gepaard gaat met exorbitant hoge **inference kosten**. Bovendien zorgt de stapsgewijze aanpak van SRL voor meer interpreteerbare en generaliseerbare redeneerprocessen, wat essentieel is voor **high-stakes toepassingen**.

Ontdek de Toekomst van Entertainment met Onze IPTV-abonnementen!

Heb je genoten van het lezen over de baanbrekende ontwikkelingen in AI die Google's new AI training method helps small models tackle complex reasoning? Net zoals AI-technologie ons leven slimmer maakt, tillen wij jouw entertainmentervaring naar een hoger niveau. Stel je voor: eindeloos entertainment, haarscherpe kwaliteit en ongekende keuze, allemaal binnen handbereik. Met onze IPTV-abonnementen geniet je van een ongekende diversiteit aan kanalen, films, series en sportevenementen, waar en wanneer je maar wilt. Stop met zoeken en start met genieten! Onze pakketten zijn ontworpen om aan al jouw wensen te voldoen, van de casual kijker tot de fervente filmliefhebber. Grijp nu je kans en transformeer je huiskamer in een persoonlijke bioscoop. IPTV kopen was nog nooit zo eenvoudig en voordelig. Klik hier om ons aanbod te bekijken en stap vandaag nog over op de toekomst van televisie!

Nieuwer Ouder