Revolutionaire Doorbraak: TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference
De wereld van kunstmatige intelligentie staat op het punt een fundamentele verschuiving te ondergaan. Onderzoekers van Stanford, Nvidia en Together AI hebben een baanbrekende techniek ontwikkeld die de manier waarop we extreem complexe problemen aanpakken, kan transformeren. Deze innovatie heeft al bewezen dat TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference, wat een enorme impact kan hebben op high-performance computing. In een recente studie slaagden ze erin een cruciale GPU-kernel twee keer sneller te laten draaien dan de voorgaande state-of-the-art, handmatig geschreven door menselijke experts. Dit illustreert de kracht van hun methode, genaamd "Test-Time Training to Discover" (TTT-Discover). Deze aanpak daagt het bestaande paradigma uit, waarin modellen langer moeten "nadenken" voor redeneerproblemen, door het model toe te staan continu te trainen en zijn gewichten bij te werken tijdens het inferentieproces zelf. Dit is een nieuwe AI-benadering voor GPU-optimalisatie die de potentie heeft om de grenzen van wat mogelijk is, te verleggen.
De Beperkingen van 'Bevroren' Redeneren
Huidige AI-strategieën in bedrijven leunen vaak op "bevroren" modellen, wat inhoudt dat de parameters van deze modellen statisch zijn, ongeacht of het een gesloten of open redeneermodel betreft. Wanneer deze modellen een prompt krijgen, zoeken ze naar antwoorden binnen de vaste 'manifold' van hun trainingsdata. Deze aanpak werkt uitstekend voor problemen die lijken op wat het model eerder heeft gezien. Echter, echte ontdekkingsproblemen – zoals het uitvinden van een nieuw algoritme, het formuleren van een revolutionaire chemische formule of het bewijzen van een nieuwe wiskundige stelling – zijn per definitie out-of-distribution. Als de oplossing een logische sprong vereist die niet in de trainingsset bestaat, zal een bevroren model waarschijnlijk falen, ongeacht hoeveel rekenkracht je er tijdens inferentie tegenaan gooit. De ontwikkeling van TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference biedt hier een krachtig alternatief, door dynamisch leren mogelijk te maken. Mert Yuksekgonul, een co-auteur van de paper en promovendus aan Stanford, verduidelijkte dit onderscheid: "Ik geloof dat denkmodellen P != NP bijvoorbeeld niet zouden kunnen bewijzen zonder training tijdens de testtijd, net zoals Andrew Wiles de Laatste Stelling van Fermat niet had kunnen bewijzen zonder de zeven jaar die hij aan dit ene probleem in isolatie besteedde en continu leerde van zijn eigen mislukkingen." TTT-Discover behandelt het testprobleem niet als een simpele vraag die beantwoord moet worden, maar als een omgeving die beheerst moet worden. Naarmate het model het probleem probeert op te lossen, genereert het verschillende soorten data: mislukkingen, gedeeltelijke successen en fouten. In plaats van deze data weg te gooien, gebruikt TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference deze om de gewichten van het model in realtime bij te werken, waardoor het model zich effectief kan 'laserfocusen' op die specifieke uitdaging, in plaats van een zeer algemeen probleemoplossend kader te ontwikkelen. Dit is de kern van TTT-Discover's geavanceerde GPU-kernel versnelling.
Een Afwijkende Benadering van Reinforcement Learning
TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference door een fundamentele verschuiving te bewerkstelligen in de manier waarop redeneermodellen worden getraind. Bij standaard reinforcement learning (RL) training is het doel een generalistisch beleid dat gemiddeld goed presteert over vele taken. Bij TTT-Discover is het doel echter het vinden van de beste oplossing voor een zeer specifiek probleem, waarbij het beleid "een middel tot dit doel" is, aldus de auteurs. Zodra het model het artefact (bijv. de geoptimaliseerde code, het bewijs of het molecuul) ontdekt, kan het neurale netwerk dat het heeft geproduceerd, worden weggegooid. Om dit te bereiken, hebben de onderzoekers twee specifieke componenten ontwikkeld die TTT-Discover onderscheiden van standaard reinforcement learning. Ten eerste is er het entropische objectief: standaard RL optimaliseert voor de gemiddelde verwachte beloning. Als een model een risicovol pad probeert en faalt, straft standaard RL dit. TTT-Discover draait dit om. Het maakt gebruik van een "entropisch objectief" dat uitkomsten met een hoge beloning exponentieel weegt. Dit dwingt het model om "veilige", gemiddelde antwoorden te negeren en agressief te jagen op "eureka"-uitschieters – oplossingen die een lage kans hebben om gevonden te worden, maar een enorme beloning bieden. De tweede component is PUCT search: het systeem introduceert PUCT, een tree-search algoritme geïnspireerd op AlphaZero. Het verkent verschillende oplossingspaden en bouwt een dataset van pogingen op. Het model traint vervolgens in realtime op deze dataset, en leert welke gedeeltelijke stappen leiden tot uitkomsten met een hoge beloning. Cruciaal is dat deze methode het beste werkt bij problemen met een continue beloningssignaal. Het systeem heeft een manier nodig om incrementele vooruitgang te meten, zoals "runtijd in microseconden" of "foutpercentage", in plaats van een binaire "geslaagd/mislukt"-signaal. Dit stelt het model in staat om de geleidelijke verbetering richting de optimale oplossing te volgen en bewijst opnieuw waarom TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference. Deze machine learning doorbraak opent deuren naar ongekende optimalisaties.
De Economie van 'Heavy Inference'
Voor bedrijven die gewend zijn om fracties van een cent per API-aanroep te betalen, vereist het kostenprofiel van TTT-Discover een mentaliteitsverandering. In hun experimenten rapporteerden de onderzoekers dat een enkele ontdekkingsrun ongeveer 50 trainingsstappen en duizenden 'rollouts' omvat, wat ruwweg $500 per probleem kost. Hoewel dit aanzienlijk klinkt, is het belangrijk te bedenken dat TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference specifiek gericht is op "statische, hoogwaardige activa", in tegenstelling tot triviale en terugkerende problemen die met bestaande modellen en benaderingen kunnen worden opgelost. Overweeg een cloud-native onderneming die nachtelijks petabytes aan informatie verwerkt via een datapipeline. Als die pipeline afhankelijk is van een specifieke SQL-query of GPU-kernel, zou het optimaliseren van die code met slechts 1% honderdduizenden dollars aan jaarlijkse rekencosten kunnen besparen. In deze context is het uitgeven van $500 om een kernel te vinden die 50% sneller is, een triviale uitgave met een onmiddellijke ROI. "Dit is het meest zinvol voor laagfrequente, hoogwaardige beslissingen waarbij een enkele verbetering veel meer waard is dan de rekencost," zei Yuksekgonul. "Supply chain routing, medicijnontwerp en materiaalontdekking komen hiervoor in aanmerking. In deze omgevingen kan het uitgeven van honderden dollars aan een enkele ontdekkingsstap zichzelf gemakkelijk terugbetalen." Dit toont aan dat TTT-Discover de efficiëntie van GPU kernels verhoogt op manieren die economisch zeer voordelig kunnen zijn voor strategische toepassingen. De continue modelverbetering die de techniek biedt, rechtvaardigt de initiële investering ruimschoots.
Implementatieoverwegingen voor Bedrijven
Een van de meest significante bevindingen voor adoptie in bedrijven is dat TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference geen eigen 'frontier'-model vereist. De onderzoekers behaalden state-of-the-art resultaten met behulp van gpt-oss-120b, OpenAI's open-weights model. Dit is een gamechanger, omdat het betekent dat bedrijven niet afhankelijk zijn van dure, gesloten modellen om van deze technologie te profiteren. Sterker nog, de onderzoekers hebben de code voor TTT-Discover openbaar gemaakt om onderzoekers en ontwikkelaars in staat te stellen het voor hun eigen modellen te gebruiken. Omdat de techniek werkt met open modellen, kunnen bedrijven deze "discovery loop" volledig binnen hun eigen beveiligde VPC's of on-premise H100-clusters uitvoeren, zonder hun bedrijfseigen gegevens naar servers van derden te sturen. "Als een bedrijf al reinforcement learning uitvoert, is er geen extra infrastructuur vereist," zei Yuksekgonul. "TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference maakt gebruik van dezelfde trainingsstack (GPU's, rollout workers, optimizers, checkpointing)." Als ze nog geen RL uitvoeren, zouden ze die infrastructuur moeten opbouwen. Maar bedrijven kunnen ook bestaande oplossingen gebruiken om de complexiteit van het proces te verminderen. De onderzoekers orkestreerden deze trainingsruns met behulp van de Tinker API van Thinking Machines, een API die de complexiteit van gedistribueerde training en inferentie beheert. "Tooling zoals Tinker (en open varianten, bijv. OpenTinker) verlaagt de opstartkosten, en zowel arbeids- als rekencosten zullen waarschijnlijk na verloop van tijd dalen," voegde hij eraan toe. Dit maakt de AI-gestuurde ontdekking toegankelijker dan ooit.
Praktische Toepassingen en Real-world Use Cases
De onderzoekers hebben TTT-Discover ingezet in vier verschillende technische domeinen: systeemtechniek, algoritmeontwerp, biologie en wiskunde. In bijna elk geval zette de methode een nieuwe state-of-the-art standaard, wat de veelzijdigheid en kracht aantoont. Een van de meest opvallende successen was hoe TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference. In één experiment optimaliseerde het model GPU-kernels voor matrixvermenigvuldiging (inclusief de "TriMul"-kernel die wordt gebruikt in AlphaFold), waardoor uitvoersnelheden tot 2x sneller werden bereikt dan voorheen state-of-the-art en de beste door mensen geschreven kernels op het leaderboard werden overtroffen. In competitieve programmeerscenario's (AtCoder) loste het complexe heuristische problemen (bijv. het optimaliseren van geometrische beperkingen voor visnetten) beter op dan topexperts en eerdere AI-baselines. Voor bedrijven hangt de overgang van deze academische benchmarks naar bedrijfswaarde af van één specifieke beperking: het bestaan van een verifieerbaar, scalair signaal. In tegenstelling tot een chatbot die tekst genereert, heeft TTT-Discover een harde meetwaarde nodig (bijv. looptijd, foutpercentage of winstmarge) om tegen te optimaliseren. Yuksekgonul stelde dat deze vereiste een duidelijke lijn trekt tussen waar deze technologie wel en niet moet worden gebruikt. "Op dit moment is de belangrijkste vereiste een betrouwbaar scalair signaal van vooruitgang – kosten, fouten, moleculaire eigenschappen – waartegen het systeem kan optimaliseren," zei hij. Dit stuurt de adoptie in bedrijven naar "harde" engineering- en operationele uitdagingen zoals logistiek, supply chain en resource management, waar problemen zoals vlootroutering of personeelsplanning vaak afhankelijk zijn van statische heuristieken. TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference door deze als optimalisatie-omgevingen te behandelen, urenlang zoekend naar een routestructuur die 5% van de dagelijkse brandstofkosten bespaart. De eis voor duidelijke verificaties sluit kwalitatieve taken uit, zoals "een betere marketingstrategie schrijven", waarbij verificatie subjectief en gevoelig voor ruis is. "Moeilijk te verifiëren problemen zijn nog steeds een open vraag," zei Yuksekgonul. Met de huidige technologie is de beste weg voorwaarts om te proberen verifiers te ontwerpen, maar "het robuust en moeilijk te manipuleren maken van die verifiers is uitdagend, en we hebben nog geen goede oplossing," voegde hij eraan toe. De efficiëntieverbetering met TTT-Discover is dus het meest tastbaar waar kwantitatieve metingen mogelijk zijn.
Van Inferentie naar Inventie: De Toekomst van Zakelijke AI
De bredere implicatie van deze ontwikkeling is dat de AI-stacks van bedrijven mogelijk moeten evolueren om dit soort per-probleem leren te ondersteunen. De traditionele "inferentie-alleen" benadering, hoe efficiënt ook voor routine taken, zal onvoldoende zijn voor de complexe ontdekkingsproblemen van morgen. Systemen die gebouwd zijn rond een bevroren model zullen ondersteuning moeten bieden voor per-probleem (of per-domein) adaptatie, en bedrijven zullen betere probleem specificaties en interne feedbacksignalen nodig hebben om test-tijd leren effectief te maken. TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference door bedrijven de mogelijkheid te bieden hun interne omgevingen verder te integreren in het leerproces. "Als training binnen een private VPC plaatsvindt, kan de trainingsloop ook worden geïntegreerd met meer van de interne omgeving van het bedrijf, niet alleen een centrale laboratoriumpipeline," zei Yuksekgonul. Voor bedrijven ligt de waarde in het identificeren van "miljoen-dollar problemen" – optimalisatie-uitdagingen waar een verifieerbare metric bestaat, maar menselijke vooruitgang is gestagneerd. Dit zijn de ideale kandidaten voor TTT-Discover. Door hogere latentie en kosten te accepteren voor specifieke queries, kunnen bedrijven hun inferentierekenkracht omzetten in een geautomatiseerd R&D-lab, waardoor ze oplossingen ontdekken die voorheen buiten bereik waren voor zowel mensen als bevroren AI-modellen. Dit is de ware essentie van hoe TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference, en het opent een nieuw tijdperk van revolutionaire AI-optimalisatietechniek.
Veelgestelde Vragen over TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference
1. Wat is de kerninnovatie van TTT-Discover?
De kerninnovatie van TTT-Discover is de mogelijkheid voor een AI-model om continu te trainen en zijn interne gewichten bij te werken tijdens het inferentieproces, in plaats van alleen te redeneren met bevroren parameters. Dit stelt het model in staat zich te specialiseren en te leren van fouten en successen in realtime op een specifiek probleem, wat resulteert in ongekende prestaties. Deze dynamische AI-training maakt het mogelijk dat TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference, een doorbraak die verder gaat dan traditionele AI-benaderingen.
2. Welke problemen kan TTT-Discover effectief oplossen en waarom?
TTT-Discover is bij uitstek geschikt voor complexe ontdekkingsproblemen met een verifieerbaar, scalair beloningssignaal, zoals looptijd, foutpercentage of winstmarge. Denk aan het optimaliseren van GPU-kernels, logistieke routes, medicijnontwerp of materiaalontdekking. Het kan problemen aanpakken die 'out-of-distribution' zijn voor bevroren modellen en die een diepgaande, iteratieve exploratie vereisen. De mogelijkheid om te leren van elke interactie en de focus op hoogwaardige 'eureka'-oplossingen maakt het een krachtig instrument voor zelflerende optimalisatiealgoritmen. Met deze aanpak TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference en levert het aantoonbare, superieure resultaten.
3. Wat zijn de economische overwegingen bij het implementeren van TTT-Discover?
De implementatie van TTT-Discover is in eerste instantie kostbaarder per probleem ($500 per run) dan standaard API-aanroepen, vanwege de 'heavy inference' en trainingstappen. Echter, de techniek is gericht op laagfrequente, hoogwaardige problemen waar zelfs een kleine optimalisatie miljoenen dollars kan besparen op jaarbasis. Denk aan kritieke infrastructurele code of complexe supply chain-algoritmen. De ROI kan in dergelijke gevallen enorm zijn, waardoor de initiële kosten verwaarloosbaar worden. Bovendien kan het met open modellen en bestaande RL-infrastructuur worden ingezet, wat de drempel verlaagt. In essentie, TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference op een manier die strategisch en economisch gerechtvaardigd is voor de meest waardevolle uitdagingen.
Verleg Uw Grenzen: Ontdek de Toekomst van Entertainment!
Heeft de toekomst van AI en de ongekende optimalisatiemogelijkheden die TTT-Discover optimizes GPU kernels 2x faster than human experts — by training during inference uw interesse gewekt? Net zoals deze geavanceerde technologie de grenzen van prestaties verlegt, nodigen wij u uit om de grenzen van uw entertainmentervaring te doorbreken. Ontdek een wereld van hoogwaardige content, live sport, de nieuwste films en series, allemaal in kristalheldere kwaliteit en zonder onderbrekingen. Upgrade vandaag nog uw kijkervaring en geniet van de ultieme vrijheid in entertainment. Bezoek onze website en ervaar zelf de voordelen van een ongeëvenaard aanbod. Wacht niet langer en transformeer uw avonden! Klik hier om IPTV te kopen en stap in de toekomst van entertainment.