MIT's fine-tuning: LLM's leren nieuwe vaardigheden zonder kennisverlies.

Revolutionaire Doorbraak: MIT's new fine-tuning method lets LLMs learn new skills without losing old ones

In de snel evoluerende wereld van kunstmatige intelligentie staan bedrijven voor een aanzienlijke uitdaging wanneer ze Large Language Models (LLM's) afstemmen voor nieuwe taken: het risico dat de modellen vergeten wat ze al wisten. Dit fenomeen, bekend als catastrofale vergetelheid, dwingt organisaties vaak om talloze gespecialiseerde modellen te onderhouden voor elke afzonderlijke vaardigheid, wat leidt tot complexiteit en hoge kosten. Gelukkig is er goed nieuws: MIT's new fine-tuning method lets LLMs learn new skills without losing old ones, wat een gamechanger belooft te zijn voor de adoptie van AI in het bedrijfsleven. Onderzoekers van MIT, het Improbable AI Lab en ETH Zürich hebben een baanbrekende techniek ontwikkeld die LLM's in staat stelt nieuwe vaardigheden en kennis te verwerven zonder hun eerdere capaciteiten te verliezen. Deze innovatie, bekend als zelf-distillatie fine-tuning (SDFT), maakt het mogelijk voor modellen om direct te leren van demonstraties en hun eigen experimenten, door gebruik te maken van de inherente in-context learning (ICL) mogelijkheden van moderne LLM's.

De resultaten zijn veelbelovend: experimenten tonen aan dat SDFT consistent beter presteert dan traditionele supervised fine-tuning (SFT), terwijl het tegelijkertijd de beperkingen van reinforcement learning (RL)-algoritmes aanpakt. Voor bedrijfstoepassingen betekent dit dat een enkel model in de loop van de tijd meerdere vaardigheden kan opbouwen zonder prestatievermindering op eerdere taken. Dit opent een potentiële weg voor het bouwen van AI-agenten die zich kunnen aanpassen aan dynamische bedrijfsomgevingen, nieuwe bedrijfseigen kennis en vaardigheden verzamelend wanneer nodig, zonder dure hertrainingscycli of het verlies van hun algemene redeneervermogen. Deze ontwikkeling is cruciaal; MIT's new fine-tuning method lets LLMs learn new skills without losing old ones, wat een fundamentele verschuiving teweegbrengt in hoe we adaptieve AI-systemen benaderen.

De Uitdaging van Continual Learning

Zodra een LLM is getraind en geïmplementeerd, blijft het doorgaans statisch. Het model werkt zijn parameters niet bij om nieuwe vaardigheden te verwerven, nieuwe kennis te internaliseren of te verbeteren door ervaring. Om werkelijk adaptieve AI te bouwen, moet de industrie het probleem van "continual learning" oplossen, waardoor systemen kennis kunnen opbouwen, vergelijkbaar met hoe mensen dit gedurende hun carrière doen. De meest effectieve manier voor modellen om te leren is via "on-policy learning". Bij deze benadering leert het model van gegevens die het zelf genereert, waardoor het zijn eigen fouten en redeneerprocessen kan corrigeren. Dit staat in contrast met leren door simpelweg statische datasets te imiteren. Zonder on-policy learning zijn modellen vatbaar voor catastrofale vergetelheid, een fenomeen waarbij het leren van een nieuwe taak ervoor zorgt dat het model zijn vroegere kennis en het vermogen om eerdere taken uit te voeren verliest. Dit is precies waarom MIT's new fine-tuning method lets LLMs learn new skills without losing old ones zo'n belangrijke doorbraak is.

Echter, on-policy learning vereist doorgaans reinforcement learning (RL), wat afhankelijk is van een expliciete beloningsfunctie om de outputs van het model te scoren. Dit werkt goed voor problemen met duidelijke uitkomsten, zoals wiskunde en coderen. Maar in veel realistische bedrijfsscenario's – denk aan het schrijven van een juridische samenvatting of het samenvatten van een vergadering – is het definiëren van een wiskundige beloningsfunctie moeilijk of zelfs onmogelijk. Bovendien falen RL-methoden vaak bij het aanleren van volledig nieuwe informatie aan een model, zoals een specifiek bedrijfsprotocol of een nieuwe productlijn. Zoals Idan Shenfeld, doctorandus aan MIT en mede-auteur van het onderzoekspaper, tegen VentureBeat zei: "Hoe vaak het basismodel ook probeert, het kan geen correcte antwoorden genereren voor een onderwerp waar het geen kennis over heeft," wat betekent dat het nooit een positief signaal krijgt om van te leren. Het standaard alternatief is supervised fine-tuning (SFT), waarbij het model wordt getraind op een vaste dataset van expert-demonstraties. Hoewel SFT duidelijke grondwaarheid biedt, is het inherent "off-policy". Omdat het model alleen gegevens imiteert in plaats van te leren van zijn eigen pogingen, faalt het vaak in het generaliseren naar out-of-distribution voorbeelden en lijdt het zwaar onder catastrofale vergetelheid. SDFT probeert deze kloof te overbruggen: het maakt de voordelen van on-policy learning mogelijk met alleen vooraf opgenomen demonstraties, zonder dat een beloningsfunctie nodig is. Dit is de kern van hoe MIT's new fine-tuning method lets LLMs learn new skills without losing old ones.

Hoe SDFT Werkt

Zelf-distillatie fine-tuning (SDFT) lost het probleem van catastrofale vergetelheid op door gebruik te maken van "distillatie", een proces waarbij een studentmodel leert een leraar te imiteren. Het inzicht van de onderzoekers was om de eigen "in-context learning (ICL)"-capaciteiten van het model te gebruiken om een feedbacklus binnen één enkel model te creëren. In-context learning is het fenomeen waarbij je de LLM een moeilijke taak en een of meer demonstraties geeft van hoe vergelijkbare problemen worden opgelost. De meeste geavanceerde LLM's zijn ontworpen om nieuwe problemen op te lossen met ICL-voorbeelden, zonder enige parameterupdates. Dit is een sleutelaspect van hoe MIT's new fine-tuning method lets LLMs learn new skills without losing old ones.

Tijdens de trainingscyclus gebruikt SDFT het model in twee rollen, waardoor het een dynamische leeromgeving creëert die voorheen moeilijk te realiseren was.

  • De leraar: Een bevroren versie van het model krijgt de query samen met expert-demonstraties aangeboden. Met behulp van in-context learning leidt de leraar het juiste antwoord en de redeneerlogica af die nodig is om dit te bereiken. Dit fungeert als de gouden standaard voor het studentmodel.
  • De student: Deze versie ziet alleen de query, wat een realistische implementatiescenario simuleert waarbij geen antwoordsleutel beschikbaar is. De student probeert de taak op eigen houtje op te lossen.

Wanneer de student een antwoord genereert, geeft de leraar, die toegang heeft tot de expert-demonstraties, feedback. De student werkt vervolgens zijn parameters bij om beter aan te sluiten bij de distributie van de leraar. Dit proces creëert effectief een on-policy learning-lus door elementen van supervised fine-tuning (SFT) en reinforcement learning (RL) te combineren. De supervisie komt niet van een statische dataset, maar van de eigen interactie en outputs van het model. Het stelt het model in staat zijn eigen redeneertrajecten te corrigeren zonder dat een extern beloningssignaal nodig is. Dit is het briljante van MIT's new fine-tuning method lets LLMs learn new skills without losing old ones, aangezien het proces zelfs werkt voor nieuwe kennis die RL zou missen.

MIT's New Fine-Tuning Method in Actie

Om de aanpak te valideren, testten de onderzoekers SDFT met behulp van het open-weight Qwen 2.5 model op drie complexe bedrijfskritische vaardigheden: wetenschappelijke Q&A, softwaretoolgebruik en medische redenering. De resultaten toonden aan dat zelf-distillatie fine-tuning (SDFT) nieuwe taken effectiever leerde dan standaardmethoden. Op de Science Q&A-benchmark behaalde het SDFT-model een nauwkeurigheid van 70,2%, vergeleken met 66,2% voor de standaard SFT-aanpak. Dit illustreert de directe impact van hoe MIT's new fine-tuning method lets LLMs learn new skills without losing old ones in de praktijk werkt.

Nog belangrijker voor de adoptie in bedrijven is de impact op catastrofale vergetelheid. Toen het standaard SFT-model de wetenschappelijke taak leerde, stortte het vermogen om algemene vragen (zoals logica of geesteswetenschappen) te beantwoorden in. In tegenstelling hiermee verbeterde het SDFT-model op de wetenschappelijke taak terwijl het zijn score voor "Eerdere Taken" stabiel hield op 64,5%. Deze stabiliteit suggereert dat bedrijven modellen kunnen specialiseren voor specifieke afdelingen (bijv. HR of Juridisch) zonder het basisgezonde verstand of de redeneercapaciteiten van het model aan te tasten. Dit toont de robuustheid van MIT's new fine-tuning method lets LLMs learn new skills without losing old ones.

Het team simuleerde ook een kennisinjectiescenario, waarbij een dataset van fictieve "Natuurrampen 2025" werd gecreëerd om het model nieuwe feiten aan te leren. Ze testten het model op indirecte redeneervragen, zoals "Welke landen hadden waarschijnlijk humanitaire hulp nodig gezien de overstromingen in 2025?". Standaard SFT resulteerde in een model dat feiten memoriseerde maar moeite had om ze te gebruiken in redeneerscenario's. Het SDFT-model, dat de logica tijdens de training had geïnternaliseerd, scoorde 98% op dezelfde vragen. Dit bewijst opnieuw de superieure continual learning capaciteiten die MIT's new fine-tuning method lets LLMs learn new skills without losing old ones mogelijk maakt.

Tot slot voerden de onderzoekers een sequentiële leerervaring uit, waarbij het model achtereenvolgens werd getraind op wetenschap, toolgebruik en medische taken. Terwijl de prestaties van het standaardmodel oscilleerden, waarbij het eerdere vaardigheden verloor naarmate het nieuwe leerde, slaagde het SDFT-model erin alle drie de vaardigheden te accumuleren zonder regressie. Dit vermogen pakt een belangrijk knelpunt aan voor bedrijven die momenteel "model zoos" van afzonderlijke adapters voor verschillende taken beheren. "We bieden de mogelijkheid om slechts één model te onderhouden voor alle behoeften van het bedrijf," zei Shenfeld. Deze consolidatie "kan leiden tot een aanzienlijke vermindering van inferentiekosten" omdat organisaties niet meerdere modellen tegelijkertijd hoeven te hosten. Dit is de kern van de efficiëntie die MIT's new fine-tuning method lets LLMs learn new skills without losing old ones levert.

Beperkingen en Beschikbaarheid van SDFT

Hoewel zelf-distillatie fine-tuning (SDFT) een krachtige techniek is en MIT's new fine-tuning method lets LLMs learn new skills without losing old ones, zijn er praktische afwegingen te overwegen. De code voor SDFT is beschikbaar op GitHub en kan worden geïntegreerd in bestaande modeltrainingworkflows. "De SDFT-pijplijn is meer vergelijkbaar met de RL-pijplijn in die zin dat het online responsgeneratie vereist tijdens de training," zei Shenfeld. Ze werken samen met Hugging Face om SDFT te integreren in de Transformer Reinforcement Learning (TRL)-bibliotheek, voegde hij eraan toe, waarbij hij opmerkte dat er al een pull-verzoek open staat voor ontwikkelaars die de integratie willen testen.

Voor teams die SDFT overwegen, komen de praktische afwegingen neer op modelgrootte en rekencapaciteit. De techniek vereist modellen met voldoende sterke in-context learning om als hun eigen leraren te kunnen fungeren — momenteel rond de 4 miljard parameters met nieuwere architecturen zoals Qwen 3, hoewel Shenfeld verwacht dat 1 miljard-parameter modellen binnenkort zullen werken. Het vereist ruwweg 2,5 keer de rekencapaciteit van standaard fine-tuning, maar is het meest geschikt voor organisaties die een enkel model nodig hebben om in de loop van de tijd meerdere vaardigheden te accumuleren, vooral in domeinen waar het definiëren van een beloningsfunctie voor reinforcement learning moeilijk of onmogelijk is. Dit maakt MIT's new fine-tuning method lets LLMs learn new skills without losing old ones een strategische investering voor specifieke use-cases.

De methode brengt ook computationele afwegingen met zich mee. SDFT is ongeveer vier keer langzamer en vereist 2,5 keer meer rekencapaciteit (FLOPs) dan standaard fine-tuning, omdat het model tijdens de training actief zijn eigen antwoorden ("rollouts") moet genereren om te vergelijken met de leraar. Echter, de onderzoekers merken op dat, omdat het model kennis beter vasthoudt, organisaties de kostbare meerfasige hertrainingsprocessen kunnen vermijden die vaak nodig zijn om modellen te repareren die lijden aan catastrofale vergetelheid. Dit toont de langetermijnvoordelen van MIT's new fine-tuning method lets LLMs learn new skills without losing old ones.

Bovendien is de techniek afhankelijk van een onderliggend model dat groot genoeg is om te profiteren van in-context learning. Het onderzoekspaper merkt op dat kleinere modellen (bijv. 3 miljard parameters) aanvankelijk moeite hadden omdat ze de "intelligentie" misten om als hun eigen leraren te fungeren. Shenfeld zei echter dat de snelle verbetering van kleine modellen deze dynamiek verandert. "De Qwen 2.5 3B-modellen waren te zwak, maar in sommige experimenten die we momenteel doen, vonden we dat het Qwen 3 4B-model sterk genoeg is," zei hij. "Ik zie een toekomst waarin zelfs 1B-modellen goede genoeg ICL-capaciteiten hebben om SDFT te ondersteunen." Uiteindelijk is het doel om verder te gaan dan statische momentopnamen naar systemen die verbeteren door gebruik, wat de essentie is van wat MIT's new fine-tuning method lets LLMs learn new skills without losing old ones nastreeft.

Conclusie

De ontwikkeling van zelf-distillatie fine-tuning (SDFT) door MIT, het Improbable AI Lab en ETH Zürich vertegenwoordigt een significante stap voorwaarts in de evolutie van adaptieve AI. Door LLM's in staat te stellen nieuwe vaardigheden te leren zonder oude te verliezen, pakt deze methode een van de meest hardnekkige problemen in continual learning aan: catastrofale vergetelheid. Voor bedrijven betekent dit een efficiëntere, kosteneffectievere en veerkrachtigere aanpak voor het implementeren en schalen van AI-oplossingen. De mogelijkheid om één enkel model te onderhouden dat zich continu aanpast en nieuwe kennis opdoet, belooft de weg vrij te maken voor werkelijk intelligente AI-agenten die naadloos kunnen opereren in dynamische bedrijfsomgevingen. MIT's new fine-tuning method lets LLMs learn new skills without losing old ones is niet alleen een technische prestatie, maar een fundamentele verschuiving in hoe we denken over de levenscyclus van AI-modellen, van statische entiteiten naar dynamische, lerende systemen.

"Levenslang leren, samen met het vermogen om leersignalen te extraheren uit ongestructureerde gebruikersinteracties... zal modellen opleveren die steeds blijven verbeteren met de tijd," zei Shenfeld. "Denk aan het feit dat het grootste deel van de rekencapaciteit wereldwijd al naar inferentie gaat in plaats van training. We moeten manieren vinden om deze rekencapaciteit te benutten om onze modellen te verbeteren." Met MIT's new fine-tuning method lets LLMs learn new skills without losing old ones zetten we een belangrijke stap in die richting.


Veelgestelde Vragen over MIT's new fine-tuning method lets LLMs learn new skills without losing old ones

Wat is de belangrijkste innovatie van MIT's new fine-tuning method lets LLMs learn new skills without losing old ones?

De belangrijkste innovatie van MIT's new fine-tuning method lets LLMs learn new skills without losing old ones is de introductie van zelf-distillatie fine-tuning (SDFT), een techniek die LLM's in staat stelt nieuwe vaardigheden en kennis te leren zonder daarbij eerder verworven capaciteiten te vergeten. Dit wordt bereikt door het model in een leraar-studentrol te laten fungeren, gebruikmakend van zijn eigen in-context learning (ICL) vermogens om een dynamische feedbacklus te creëren en zo de catastrofale vergetelheid te omzeilen.

Hoe verschilt MIT's new fine-tuning method lets LLMs learn new skills without losing old ones van traditionele fine-tuning methoden zoals SFT en RL?

MIT's new fine-tuning method lets LLMs learn new skills without losing old ones (SDFT) combineert de voordelen van supervised fine-tuning (SFT) en reinforcement learning (RL), terwijl de beperkingen ervan worden aangepakt. In tegenstelling tot SFT, dat afhankelijk is van statische datasets en gevoelig is voor catastrofale vergetelheid, en RL, dat een complexe beloningsfunctie vereist en moeite heeft met nieuwe kennis, creëert SDFT een on-policy learning lus. Dit stelt het model in staat om van zijn eigen interacties en output te leren, zonder externe beloningssignalen of het risico van het verlies van eerdere kennis.

Welke voordelen biedt MIT's new fine-tuning method lets LLMs learn new skills without losing old ones voor bedrijven?

Voor bedrijven biedt MIT's new fine-tuning method lets LLMs learn new skills without losing old ones de mogelijkheid om één enkel LLM te onderhouden dat meerdere vaardigheden kan accumuleren zonder prestatievermindering op oudere taken. Dit vermindert de noodzaak om "model zoos" te beheren en leidt tot een aanzienlijke vermindering van inferentiekosten. Het stelt AI-agenten in staat zich aan te passen aan dynamische bedrijfsomgevingen, nieuwe bedrijfseigen kennis op te doen en voortdurend te verbeteren, wat een flexibele en schaalbare AI-strategie mogelijk maakt.


Ontdek Meer Mogelijkheden met IPTV

De wereld van technologie evolueert razendsnel, net als de manier waarop we entertainment consumeren. Net zoals MIT's new fine-tuning method lets LLMs learn new skills without losing old ones de grenzen van AI verlegt, zo verleggen geavanceerde streamingdiensten de grenzen van thuisamusement. Bent u klaar om een ongeëvenaarde kijkervaring te omarmen met toegang tot een wereld van content?

Optimaliseer uw entertainmentervaring vandaag nog. Met onze IPTV-abonnementen krijgt u toegang tot duizenden kanalen, films en series van over de hele wereld, allemaal in kristalheldere kwaliteit en zonder haperingen. Profiteer van de nieuwste technologie om te genieten van uw favoriete programma's, sportevenementen en films, precies wanneer u dat wilt.

Wacht niet langer en transformeer uw kijkgedrag. Bezoek onze website en koop IPTV vandaag nog om te genieten van een naadloze en rijke entertainmentervaring die perfect aansluit bij de dynamische en innovatieve geest van de moderne tijd. Klik hier om uw abonnement te starten: IPTV kopen

Nieuwer Ouder